Fugu-MT 論文翻訳(概要): Bitnet.cpp: Efficient Edge Inference for Ternary LLMs

論文の概要: Bitnet.cpp: Efficient Edge Inference for Ternary LLMs

arxiv url: http://arxiv.org/abs/2502.11880v1
Date: Mon, 17 Feb 2025 15:06:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.348139
Title: Bitnet.cpp: Efficient Edge Inference for Ternary LLMs
Title（参考訳）: Bitnet.cpp: 第三次LLMの効率的なエッジ推論
Authors: Jinheng Wang, Hansong Zhou, Ting Song, Shijie Cao, Yan Xia, Ting Cao, Jianyu Wei, Shuming Ma, Hongyu Wang, Furu Wei,
Abstract要約: 我々はBitNet b1.58と3次LLM向けに最適化された推論システムBitnetを紹介する。 Bitnetは、新しいmpGEMMライブラリを組み込んで、サブ-2ビット毎の軽量、効率的、損失のない推論を容易にする。我々の実験は、Bitnetが全精度ベースラインで最大6.25倍、低ビットベースラインで最大2.32倍の速度を達成することを示した。
参考スコア（独自算出の注目度）: 71.5759603658299
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of 1-bit large language models (LLMs), led by BitNet b1.58, has spurred interest in ternary LLMs. Despite this, research and practical applications focusing on efficient edge inference for ternary LLMs remain scarce. To bridge this gap, we introduce Bitnet.cpp, an inference system optimized for BitNet b1.58 and ternary LLMs. Given that mixed-precision matrix multiplication (mpGEMM) constitutes the bulk of inference time in ternary LLMs, Bitnet.cpp incorporates a novel mpGEMM library to facilitate sub-2-bits-per-weight, efficient and lossless inference. The library features two core solutions: Ternary Lookup Table (TL), which addresses spatial inefficiencies of previous bit-wise methods, and Int2 with a Scale (I2_S), which ensures lossless edge inference, both enabling high-speed inference. Our experiments show that Bitnet.cpp achieves up to a 6.25x increase in speed over full-precision baselines and up to 2.32x over low-bit baselines, setting new benchmarks in the field. Additionally, we expand TL to element-wise lookup table (ELUT) for low-bit LLMs in the appendix, presenting both theoretical and empirical evidence of its considerable potential. Bitnet.cpp is publicly available at https://github.com/microsoft/BitNet/tree/paper , offering a sophisticated solution for the efficient and practical deployment of edge LLMs.
Abstract（参考訳）: BitNet b1.58が率いる1ビットの大規模言語モデル(LLM)が出現し、第三次LLMへの関心が高まった。それにもかかわらず、3次LLMの効率的なエッジ推論に焦点をあてた研究や実践的応用は少ないままである。このギャップを埋めるために,BitNet b1.58 と 3次 LLM に最適化された推論システム Bitnet.cpp を導入する。混合精度行列乗算(mpGEMM)が3次LLMにおける推論時間の大部分を構成することを考えると、Bitnet.cppは、サブ-2ビット/ウェイト、効率、損失のない推論を容易にする新しいmpGEMMライブラリを組み込んでいる。ライブラリには2つの中核的なソリューションがある: Ternary Lookup Table (TL)は、以前のビットワイドメソッドの空間的非効率に対処し、Int2はスケール(I2_S)を持ち、損失のないエッジ推論を保証し、どちらも高速推論を可能にする。我々の実験によると、Bitnet.cppは、全精度ベースラインよりも最大6.25倍、低ビットベースラインより最大2.32倍の速度を実現し、新しいベンチマークをフィールドに設定している。さらに, 虫垂内の低ビットLSMに対するTLをELUT( El-wise lookup table)に拡張し, その有意な可能性に関する理論的および実証的な証拠を提示する。 Bitnet.cpp は https://github.com/microsoft/BitNet/tree/paper で公開されており、エッジ LLM の効率的かつ実用的なデプロイのための洗練されたソリューションを提供する。

関連論文リスト

BTC-LLM: Efficient Sub-1-Bit LLM Quantization via Learnable Transformation and Binary Codebook [20.89001326838199]
本稿では,新しいサブ1ビット大規模言語モデル(LLM)の量子化フレームワークであるBTC-LLMを提案する。提案手法は,(1)非可逆スケーリングと回転を最適化し,二項化重みを完全精度分布に整合させる学習可能な変換,(2)繰り返し発生するバイナリベクトルクラスタを識別するFlashおよび精度の高いバイナリコードブックである。
論文参考訳（メタデータ） (2025-05-24T03:57:19Z)
BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs [95.73339037243105]
BitNet v2は、1ビットの大規模言語モデルに対してネイティブな4ビットアクティベーション量子化を可能にするフレームワークである。 H-BitLinearは、アクティベーション量子化の前にオンラインアダマール変換を適用するモジュールである。実験では、BitNet v2がゼロからトレーニングされ、8ビットアクティベーションはBitNet b1.58のパフォーマンスと一致している。
論文参考訳（メタデータ） (2025-04-25T15:17:52Z)
BitNet b1.58 2B4T Technical Report [118.78752947128682]
BitNet b1.58 2B4Tは、最初のオープンソースでネイティブな1ビットのLarge Language Model(LLM)を2-billionパラメータスケールで導入する。 4兆トークンのコーパスでトレーニングされたこのモデルは、言語理解、数学的推論、コーディングの習熟度、会話能力に関するベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (2025-04-16T17:51:43Z)
1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs [81.7388752468953]
bitnetは1ビットのLarge Language Modelの可能性を最大限に活用するために設計されたソフトウェアスタックです。実験では、bitnetはxCPUの2.37xから6.17x、ARMの1.37xから5.07xまでの大幅なスピードアップを実現している。
論文参考訳（メタデータ） (2024-10-21T16:14:57Z)
CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs [44.03692512352445]
カラムレベル適応量量子化(CLAQ)は、LLM(Large Language Models)量子化のための新しく効果的なフレームワークである。本稿では,LLM量子化のための3種類の適応戦略を導入することで,新しい効果的なCLAQフレームワークを提案する。 LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM に関する実験により, 提案手法が様々なビット設定における最先端結果を達成することを示す。
論文参考訳（メタデータ） (2024-05-27T14:49:39Z)
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits [129.6765656933016]
我々は1ビットのLarge Language Models (LLMs) 、すなわちBitNet b1.58を導入する。 1.58ビット LLM は、新しい世代の LLM を訓練するための新しいスケーリング法則とレシピを定義している。これは新しいパラダイムを可能にし、1ビットLLM向けに最適化された特定のハードウェアを設計するための扉を開く。
論文参考訳（メタデータ） (2024-02-27T18:56:19Z)
OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文参考訳（メタデータ） (2024-02-17T14:26:57Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。