論文の概要: BitNet b1.58 2B4T Technical Report
- arxiv url: http://arxiv.org/abs/2504.12285v1
- Date: Wed, 16 Apr 2025 17:51:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:37:20.330203
- Title: BitNet b1.58 2B4T Technical Report
- Title(参考訳): BitNet b1.58 2B4Tテクニカルレポート
- Authors: Shuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei,
- Abstract要約: BitNet b1.58 2B4Tは、最初のオープンソースでネイティブな1ビットのLarge Language Model(LLM)を2-billionパラメータスケールで導入する。
4兆トークンのコーパスでトレーニングされたこのモデルは、言語理解、数学的推論、コーディングの習熟度、会話能力に関するベンチマークで厳格に評価されている。
- 参考スコア(独自算出の注目度): 118.78752947128682
- License:
- Abstract: We introduce BitNet b1.58 2B4T, the first open-source, native 1-bit Large Language Model (LLM) at the 2-billion parameter scale. Trained on a corpus of 4 trillion tokens, the model has been rigorously evaluated across benchmarks covering language understanding, mathematical reasoning, coding proficiency, and conversational ability. Our results demonstrate that BitNet b1.58 2B4T achieves performance on par with leading open-weight, full-precision LLMs of similar size, while offering significant advantages in computational efficiency, including substantially reduced memory footprint, energy consumption, and decoding latency. To facilitate further research and adoption, the model weights are released via Hugging Face along with open-source inference implementations for both GPU and CPU architectures.
- Abstract(参考訳): BitNet b1.58 2B4Tは、最初のオープンソースでネイティブな1ビットのLarge Language Model(LLM)を2-billionパラメータスケールで導入する。
4兆トークンのコーパスでトレーニングされたこのモデルは、言語理解、数学的推論、コーディングの習熟度、会話能力に関するベンチマークで厳格に評価されている。
以上の結果から,BitNet b1.58 2B4Tは,メモリフットプリントの大幅な削減,エネルギー消費,復号遅延といった計算効率の面で有意な優位性を示した。
さらなる研究と採用を容易にするため、モデルウェイトはHugging Faceを通じて、GPUとCPUアーキテクチャ用のオープンソース推論実装とともにリリースされている。
関連論文リスト
- Bitnet.cpp: Efficient Edge Inference for Ternary LLMs [71.5759603658299]
我々はBitNet b1.58と3次LLM向けに最適化された推論システムBitnetを紹介する。
Bitnetは、新しいmpGEMMライブラリを組み込んで、サブ-2ビット毎の軽量、効率的、損失のない推論を容易にする。
我々の実験は、Bitnetが全精度ベースラインで最大6.25倍、低ビットベースラインで最大2.32倍の速度を達成することを示した。
論文 参考訳(メタデータ) (2025-02-17T15:06:28Z) - Unlocking Efficient Large Inference Models: One-Bit Unrolling Tips the Scales [13.846014191157405]
我々は1ビットのアルゴリズムを解き放つ新しいアプローチを導入し、物理世界からの情報をモデルアーキテクチャに効果的に統合する。
提案手法は,前処理で報告した1.58ビットよりもリンクレートが大幅に低くなる。
提案した1ビットアルゴリズムのアンローリング方式は,学習結果とテスト結果の両方を改善することができることを示す。
論文 参考訳(メタデータ) (2025-02-04T00:53:10Z) - 1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs [81.7388752468953]
bitnetは1ビットのLarge Language Modelの可能性を最大限に活用するために設計されたソフトウェアスタックです。
実験では、bitnetはxCPUの2.37xから6.17x、ARMの1.37xから5.07xまでの大幅なスピードアップを実現している。
論文 参考訳(メタデータ) (2024-10-21T16:14:57Z) - BitNet: Scaling 1-bit Transformers for Large Language Models [119.18692348616845]
大規模言語モデル用に設計されたスケーラブルで安定した1ビットトランスフォーマーアーキテクチャであるBitNetを紹介する。
言語モデリングの実験結果から,BitNetはメモリフットプリントとエネルギー消費を大幅に削減しつつ,競争性能を向上することが示された。
論文 参考訳(メタデータ) (2023-10-17T17:59:15Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - MeliusNet: Can Binary Neural Networks Achieve MobileNet-level Accuracy? [12.050205584630922]
バイナリニューラルネットワーク(BNN)は、典型的な32ビット浮動小数点値の代わりに2重みとアクティベーションを使用するニューラルネットワークである。
本稿では,特徴量を増加させるDenseBlockと,特徴量を増加させるAdvancedBlockというアーキテクチャアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-16T16:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。