論文の概要: BitNet a4.8: 4-bit Activations for 1-bit LLMs
- arxiv url: http://arxiv.org/abs/2411.04965v1
- Date: Thu, 07 Nov 2024 18:41:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:40:03.956939
- Title: BitNet a4.8: 4-bit Activations for 1-bit LLMs
- Title(参考訳): BitNet a4.8: 1ビットLLMのための4ビットアクティベーション
- Authors: Hongyu Wang, Shuming Ma, Furu Wei,
- Abstract要約: 1ビット大言語モデルの4ビットアクティベーションを可能にするBitNet a4.8を導入する。
我々はBitNet a4.8がBitNet b1.58と同等のトレーニングコストでパフォーマンスを実現することを実証した。
- 参考スコア(独自算出の注目度): 95.73339037243105
- License:
- Abstract: Recent research on the 1-bit Large Language Models (LLMs), such as BitNet b1.58, presents a promising direction for reducing the inference cost of LLMs while maintaining their performance. In this work, we introduce BitNet a4.8, enabling 4-bit activations for 1-bit LLMs. BitNet a4.8 employs a hybrid quantization and sparsification strategy to mitigate the quantization errors introduced by the outlier channels. Specifically, we utilize 4-bit activations for inputs to the attention and feed-forward network layers, while sparsifying intermediate states followed with 8-bit quantization. Extensive experiments demonstrate that BitNet a4.8 achieves performance comparable to BitNet b1.58 with equivalent training costs, while being faster in inference with enabling 4-bit (INT4/FP4) kernels. Additionally, BitNet a4.8 activates only 55% of parameters and supports 3-bit KV cache, further enhancing the efficiency of large-scale LLM deployment and inference.
- Abstract(参考訳): BitNet b1.58のような1ビットのLarge Language Model(LLM)に関する最近の研究は、LLMの推論コストを低減し、性能を維持できる有望な方向性を示している。
本研究では,1ビットLLMの4ビットアクティベーションを実現するBitNet a4.8を紹介する。
BitNet a4.8は、オフラヤチャネルが導入した量子化エラーを軽減するために、ハイブリッド量子化とスパーシフィケーション戦略を採用している。
具体的には、注意層とフィードフォワードネットワーク層への入力に4ビットのアクティベーションを使用し、中間状態を分散させ、8ビットの量子化を行う。
大規模な実験では、BitNet a4.8は4ビット(INT4/FP4)カーネルを有効にして推論を高速化しながら、同等のトレーニングコストでBitNet b1.58に匹敵するパフォーマンスを実現している。
さらに、BitNet a4.8はパラメータの55%しか活性化せず、3ビットKVキャッシュをサポートし、大規模LLMデプロイメントと推論の効率をさらに高めている。
関連論文リスト
- 1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs [81.7388752468953]
bitnetは1ビットのLarge Language Modelの可能性を最大限に活用するために設計されたソフトウェアスタックです。
実験では、bitnetはxCPUの2.37xから6.17x、ARMの1.37xから5.07xまでの大幅なスピードアップを実現している。
論文 参考訳(メタデータ) (2024-10-21T16:14:57Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - BitNet: Scaling 1-bit Transformers for Large Language Models [119.18692348616845]
大規模言語モデル用に設計されたスケーラブルで安定した1ビットトランスフォーマーアーキテクチャであるBitNetを紹介する。
言語モデリングの実験結果から,BitNetはメモリフットプリントとエネルギー消費を大幅に削減しつつ,競争性能を向上することが示された。
論文 参考訳(メタデータ) (2023-10-17T17:59:15Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - Post-Training Sparsity-Aware Quantization [2.2530496464901106]
量子化(quantization)は、ディープニューラルネットワーク(DNN)において、実行性能とハードウェア効率を向上させるために使用されるテクニックである。
本研究では,非構造および動的アクティベーション・スパシティを異なる表現粒度に利用したスパーシティー対応量子化(SPARQ)法を提案する。
SPARQは、小さな精度の劣化、広く使われているハードウェアアーキテクチャの2倍の高速化、実用的なハードウェア実装を実現している。
論文 参考訳(メタデータ) (2021-05-23T20:12:35Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Fast Implementation of 4-bit Convolutional Neural Networks for Mobile
Devices [0.8362190332905524]
量子化ニューラルネットワークにおける4ビット行列乗算の効率的な実装について述べる。
また、MIDV-500データセット上でOCR認識のための4ビット量子化ニューラルネットワークを実演する。
その結果、4ビット量子化はモバイルデバイスに完全に適合し、十分な精度と推論時間が得られることがわかった。
論文 参考訳(メタデータ) (2020-09-14T14:48:40Z) - BitPruning: Learning Bitlengths for Aggressive and Accurate Quantization [57.14179747713731]
精度を維持しつつ,任意の粒度で推論ビット長を最小化するためのトレーニング手法を提案する。
ImageNetでは、平均4.13ビット、3.76ビット、4.36ビットを生成する。
論文 参考訳(メタデータ) (2020-02-08T04:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。