論文の概要: Bitnet.cpp: Efficient Edge Inference for Ternary LLMs
- arxiv url: http://arxiv.org/abs/2502.11880v1
- Date: Mon, 17 Feb 2025 15:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:54.284048
- Title: Bitnet.cpp: Efficient Edge Inference for Ternary LLMs
- Title(参考訳): Bitnet.cpp: 第三次LLMの効率的なエッジ推論
- Authors: Jinheng Wang, Hansong Zhou, Ting Song, Shijie Cao, Yan Xia, Ting Cao, Jianyu Wei, Shuming Ma, Hongyu Wang, Furu Wei,
- Abstract要約: 我々はBitNet b1.58と3次LLM向けに最適化された推論システムBitnetを紹介する。
Bitnetは、新しいmpGEMMライブラリを組み込んで、サブ-2ビット毎の軽量、効率的、損失のない推論を容易にする。
我々の実験は、Bitnetが全精度ベースラインで最大6.25倍、低ビットベースラインで最大2.32倍の速度を達成することを示した。
- 参考スコア(独自算出の注目度): 71.5759603658299
- License:
- Abstract: The advent of 1-bit large language models (LLMs), led by BitNet b1.58, has spurred interest in ternary LLMs. Despite this, research and practical applications focusing on efficient edge inference for ternary LLMs remain scarce. To bridge this gap, we introduce Bitnet.cpp, an inference system optimized for BitNet b1.58 and ternary LLMs. Given that mixed-precision matrix multiplication (mpGEMM) constitutes the bulk of inference time in ternary LLMs, Bitnet.cpp incorporates a novel mpGEMM library to facilitate sub-2-bits-per-weight, efficient and lossless inference. The library features two core solutions: Ternary Lookup Table (TL), which addresses spatial inefficiencies of previous bit-wise methods, and Int2 with a Scale (I2_S), which ensures lossless edge inference, both enabling high-speed inference. Our experiments show that Bitnet.cpp achieves up to a 6.25x increase in speed over full-precision baselines and up to 2.32x over low-bit baselines, setting new benchmarks in the field. Additionally, we expand TL to element-wise lookup table (ELUT) for low-bit LLMs in the appendix, presenting both theoretical and empirical evidence of its considerable potential. Bitnet.cpp is publicly available at https://github.com/microsoft/BitNet/tree/paper , offering a sophisticated solution for the efficient and practical deployment of edge LLMs.
- Abstract(参考訳): BitNet b1.58が率いる1ビットの大規模言語モデル(LLM)が出現し、第三次LLMへの関心が高まった。
それにもかかわらず、3次LLMの効率的なエッジ推論に焦点をあてた研究や実践的応用は少ないままである。
このギャップを埋めるために,BitNet b1.58 と 3次 LLM に最適化された推論システム Bitnet.cpp を導入する。
混合精度行列乗算(mpGEMM)が3次LLMにおける推論時間の大部分を構成することを考えると、Bitnet.cppは、サブ-2ビット/ウェイト、効率、損失のない推論を容易にする新しいmpGEMMライブラリを組み込んでいる。
ライブラリには2つの中核的なソリューションがある: Ternary Lookup Table (TL)は、以前のビットワイドメソッドの空間的非効率に対処し、Int2はスケール(I2_S)を持ち、損失のないエッジ推論を保証し、どちらも高速推論を可能にする。
我々の実験によると、Bitnet.cppは、全精度ベースラインよりも最大6.25倍、低ビットベースラインより最大2.32倍の速度を実現し、新しいベンチマークをフィールドに設定している。
さらに, 虫垂内の低ビットLSMに対するTLをELUT( El-wise lookup table)に拡張し, その有意な可能性に関する理論的および実証的な証拠を提示する。
Bitnet.cpp は https://github.com/microsoft/BitNet/tree/paper で公開されており、エッジ LLM の効率的かつ実用的なデプロイのための洗練されたソリューションを提供する。
関連論文リスト
- 1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs [81.7388752468953]
bitnetは1ビットのLarge Language Modelの可能性を最大限に活用するために設計されたソフトウェアスタックです。
実験では、bitnetはxCPUの2.37xから6.17x、ARMの1.37xから5.07xまでの大幅なスピードアップを実現している。
論文 参考訳(メタデータ) (2024-10-21T16:14:57Z) - LUT Tensor Core: Lookup Table Enables Efficient Low-Bit LLM Inference Acceleration [10.608817382813786]
混合精度行列乗算(英: Mixed-precision matrix multiplication, mpGEMM)は、より高精度な活性化を伴う低精度重みを乗算する重要な演算である。
現在のハードウェアはmpGEMMをサポートしておらず、間接的かつ非効率な復号化ベースの実装をもたらす。
低ビットLLM推論に最適化されたハードウェアの共同設計であるLUT Coreを紹介する。
論文 参考訳(メタデータ) (2024-08-12T08:52:14Z) - CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs [44.03692512352445]
カラムレベル適応量量子化(CLAQ)は、LLM(Large Language Models)量子化のための新しく効果的なフレームワークである。
本稿では,LLM量子化のための3種類の適応戦略を導入することで,新しい効果的なCLAQフレームワークを提案する。
LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM に関する実験により, 提案手法が様々なビット設定における最先端結果を達成することを示す。
論文 参考訳(メタデータ) (2024-05-27T14:49:39Z) - The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [129.6765656933016]
我々は1ビットのLarge Language Models (LLMs) 、すなわちBitNet b1.58を導入する。
1.58ビット LLM は、新しい世代の LLM を訓練するための新しいスケーリング法則とレシピを定義している。
これは新しいパラダイムを可能にし、1ビットLLM向けに最適化された特定のハードウェアを設計するための扉を開く。
論文 参考訳(メタデータ) (2024-02-27T18:56:19Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models [53.87983344862402]
大規模言語モデル(PLM)はメモリフットプリントと計算の点で非効率である。
PLMはデータセットバイアスに頼り、アウト・オブ・ディストリビューション(OOD)データへの一般化に苦慮する傾向にある。
最近の研究では、スパースワークはパフォーマンスを損なうことなくスパースワークに置き換えることができることが示されている。
論文 参考訳(メタデータ) (2022-10-11T07:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。