論文の概要: BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs
- arxiv url: http://arxiv.org/abs/2504.18415v1
- Date: Fri, 25 Apr 2025 15:17:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.81415
- Title: BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs
- Title(参考訳): BitNet v2: 1ビットLLMのアダマール変換によるネイティブ4ビットアクティベーション
- Authors: Hongyu Wang, Shuming Ma, Furu Wei,
- Abstract要約: BitNet v2は、1ビットの大規模言語モデルに対してネイティブな4ビットアクティベーション量子化を可能にするフレームワークである。
H-BitLinearは、アクティベーション量子化の前にオンラインアダマール変換を適用するモジュールである。
実験では、BitNet v2がゼロからトレーニングされ、8ビットアクティベーションはBitNet b1.58のパフォーマンスと一致している。
- 参考スコア(独自算出の注目度): 95.73339037243105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient deployment of 1-bit Large Language Models (LLMs) is hindered by activation outliers, which complicate quantization to low bit-widths. We introduce BitNet v2, a novel framework enabling native 4-bit activation quantization for 1-bit LLMs. To tackle outliers in attention and feed-forward network activations, we propose H-BitLinear, a module applying an online Hadamard transformation prior to activation quantization. This transformation smooths sharp activation distributions into more Gaussian-like forms, suitable for low-bit representation. Experiments show BitNet v2 trained from scratch with 8-bit activations matches BitNet b1.58 performance. Crucially, BitNet v2 achieves minimal performance degradation when trained with native 4-bit activations, significantly reducing memory footprint and computational cost for batched inference.
- Abstract(参考訳): 1ビットのLarge Language Models (LLM) の効率的なデプロイは、低ビット幅への量子化を複雑にするアクティベーションアウトリーによって妨げられる。
1ビットLLMに対してネイティブな4ビットアクティベーション量子化を可能にする新しいフレームワークBitNet v2を紹介する。
本稿では,アクティベーション量子化に先立ってオンラインアダマール変換を適用するモジュールであるH-BitLinearを提案する。
この変換は急激な活性化分布をよりガウス的な形式に滑らかにし、低ビット表現に適している。
実験では、BitNet v2がゼロからトレーニングされ、8ビットアクティベーションはBitNet b1.58のパフォーマンスと一致している。
重要なことは、BitNet v2はネイティブ4ビットアクティベーションでトレーニングされた場合、最小パフォーマンスの劣化を達成し、バッチ推論のメモリフットプリントと計算コストを大幅に削減する。
関連論文リスト
- Bitnet.cpp: Efficient Edge Inference for Ternary LLMs [71.5759603658299]
我々はBitNet b1.58と3次LLM向けに最適化された推論システムBitnetを紹介する。
Bitnetは、新しいmpGEMMライブラリを組み込んで、サブ-2ビット毎の軽量、効率的、損失のない推論を容易にする。
我々の実験は、Bitnetが全精度ベースラインで最大6.25倍、低ビットベースラインで最大2.32倍の速度を達成することを示した。
論文 参考訳(メタデータ) (2025-02-17T15:06:28Z) - BitNet a4.8: 4-bit Activations for 1-bit LLMs [95.73339037243105]
1ビット大言語モデルの4ビットアクティベーションを可能にするBitNet a4.8を導入する。
我々はBitNet a4.8がBitNet b1.58と同等のトレーニングコストでパフォーマンスを実現することを実証した。
論文 参考訳(メタデータ) (2024-11-07T18:41:50Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - BitNet: Scaling 1-bit Transformers for Large Language Models [119.18692348616845]
大規模言語モデル用に設計されたスケーラブルで安定した1ビットトランスフォーマーアーキテクチャであるBitNetを紹介する。
言語モデリングの実験結果から,BitNetはメモリフットプリントとエネルギー消費を大幅に削減しつつ,競争性能を向上することが示された。
論文 参考訳(メタデータ) (2023-10-17T17:59:15Z) - DyBit: Dynamic Bit-Precision Numbers for Efficient Quantized Neural
Network Inference [28.912023025671868]
この作業は、DyBitと呼ばれる可変長エンコーディングを持つ適応データ表現をターゲットにしている。
また,予測精度と高速化をトレードオフする混合精度加速器を備えたハードウェア対応量子化フレームワークを提案する。
実験の結果、DyBitによる推論精度は4ビット量子化の最先端よりも1.997%高いことがわかった。
論文 参考訳(メタデータ) (2023-02-24T08:46:01Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - Post-Training Sparsity-Aware Quantization [2.2530496464901106]
量子化(quantization)は、ディープニューラルネットワーク(DNN)において、実行性能とハードウェア効率を向上させるために使用されるテクニックである。
本研究では,非構造および動的アクティベーション・スパシティを異なる表現粒度に利用したスパーシティー対応量子化(SPARQ)法を提案する。
SPARQは、小さな精度の劣化、広く使われているハードウェアアーキテクチャの2倍の高速化、実用的なハードウェア実装を実現している。
論文 参考訳(メタデータ) (2021-05-23T20:12:35Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - Exploring the Potential of Low-bit Training of Convolutional Neural
Networks [16.72709290595995]
畳み込みニューラルネットワークのための低ビットトレーニングフレームワークを提案する。
我々のフレームワークは、新しいマルチレベルスケーリング(MLS)テンソルフォーマットに基づいて構築されている。
実験により、我々のフレームワークは精度とビット幅のトレードオフが優れていることが示された。
論文 参考訳(メタデータ) (2020-06-04T12:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。