論文の概要: BitNet: Scaling 1-bit Transformers for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.11453v1
- Date: Tue, 17 Oct 2023 17:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 14:39:38.482761
- Title: BitNet: Scaling 1-bit Transformers for Large Language Models
- Title(参考訳): BitNet: 大きな言語モデルのための1ビットトランスフォーマーのスケーリング
- Authors: Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang,
Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei
- Abstract要約: 大規模言語モデル用に設計されたスケーラブルで安定した1ビットトランスフォーマーアーキテクチャであるBitNetを紹介する。
言語モデリングの実験結果から,BitNetはメモリフットプリントとエネルギー消費を大幅に削減しつつ,競争性能を向上することが示された。
- 参考スコア(独自算出の注目度): 119.18692348616845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing size of large language models has posed challenges for
deployment and raised concerns about environmental impact due to high energy
consumption. In this work, we introduce BitNet, a scalable and stable 1-bit
Transformer architecture designed for large language models. Specifically, we
introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to
train 1-bit weights from scratch. Experimental results on language modeling
show that BitNet achieves competitive performance while substantially reducing
memory footprint and energy consumption, compared to state-of-the-art 8-bit
quantization methods and FP16 Transformer baselines. Furthermore, BitNet
exhibits a scaling law akin to full-precision Transformers, suggesting its
potential for effective scaling to even larger language models while
maintaining efficiency and performance benefits.
- Abstract(参考訳): 大規模言語モデルの拡大は、デプロイメントの課題を提起し、高エネルギー消費による環境への影響に対する懸念を提起した。
本稿では,大規模言語モデル用に設計されたスケーラブルで安定な1ビットトランスフォーマアーキテクチャであるbitnetを紹介する。
具体的には、BitLinear を nn.Linear 層のドロップイン置換として導入し、1ビット重量をゼロからトレーニングする。
言語モデリング実験の結果、BitNetは、最先端の8ビット量子化法やFP16トランスフォーマーベースラインと比較して、メモリフットプリントとエネルギー消費を大幅に削減しながら、競合性能を実現していることがわかった。
さらにBitNetは、フル精度トランスフォーマーに似たスケーリング法則を示し、効率とパフォーマンスのメリットを維持しながら、より大きな言語モデルへの効果的なスケーリングの可能性を示している。
関連論文リスト
- Layer-Condensed KV Cache for Efficient Inference of Large Language Models [44.24593677113768]
少数の層のKVのみを計算・キャッシュする新しい手法を提案する。
提案手法は標準変圧器よりも最大26$times$高いスループットを実現する。
論文 参考訳(メタデータ) (2024-05-17T08:59:46Z) - Binary and Ternary Natural Language Generation [24.295815261826153]
三項ニューラルネットワークと二項ニューラルネットワークは、乗算不要な計算を可能にする。
完全精度ネットワーク上では、複数の桁の効率向上を約束する。
しかし、そのようなネットワークの最適化は非常に困難であることが証明されている。
要約および機械翻訳の下流タスクにおいて、第1次および第2次変換器モデルを示す。
論文 参考訳(メタデータ) (2023-06-02T18:01:02Z) - MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers [78.85346970193518]
Megabyteは、100万バイトを超えるシーケンスのエンドツーエンドで微分可能なモデリングを可能にするマルチスケールデコーダアーキテクチャである。
実験によると、Megabyteはバイトレベルのモデルで、長い文脈言語モデリングのサブワードモデルと競合することを可能にする。
その結果、トークン化のない自己回帰配列を大規模にモデル化できる可能性が確立された。
論文 参考訳(メタデータ) (2023-05-12T00:55:41Z) - Binarized Neural Machine Translation [43.488431560851204]
機械翻訳(BMT)に適用したトランスフォーマーの新しいバイナライズ手法を提案する。
1ビットの重みとアクティベーションを使用する場合の膨らませたドット積分散の問題を特定し,対処する。
WMTデータセットの実験では、1ビットのウェイトオンリートランスフォーマーはフロートと同じ品質を達成できるが、サイズは16倍小さい。
論文 参考訳(メタデータ) (2023-02-09T19:27:34Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文 参考訳(メタデータ) (2021-01-27T18:55:27Z) - Towards Fully 8-bit Integer Inference for the Transformer Model [39.22272841663168]
トランスフォーマーと呼ばれるトランスフォーマーアーキテクチャを原理的に修正した後、(ほぼ)完全8ビット整数推論アルゴリズムが導出可能であることを示す。
We experiment on WMT16 En->Ro, WMT14 En->De and En->Fr translation task as the WikiText-103 language modelling task shows that the fully 8-bit Transformer system achieves comparable performance with the floating point baseline but nearly 4x less memory footprint。
論文 参考訳(メタデータ) (2020-09-17T03:09:10Z) - Extremely Low Bit Transformer Quantization for On-Device Neural Machine
Translation [9.770173256808844]
非常に少ないビット数でトランスフォーマー重みを表現するための混合精度量子化戦略を提案する。
我々のモデルはベースラインモデルよりも11.8$times$小さいモデルサイズで、-0.5BLEU未満である。
実行時のメモリフットプリントが8.3$times$削減され、3.5$times$スピードアップを実現しています。
論文 参考訳(メタデータ) (2020-09-16T03:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。