論文の概要: BitNet b1.58 Reloaded: State-of-the-art Performance Also on Smaller Networks
- arxiv url: http://arxiv.org/abs/2407.09527v1
- Date: Mon, 24 Jun 2024 20:55:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 13:18:53.358240
- Title: BitNet b1.58 Reloaded: State-of-the-art Performance Also on Smaller Networks
- Title(参考訳): BitNet b1.58のリロード: より小さなネットワーク上での最先端のパフォーマンス
- Authors: Jacob Nielsen, Peter Schneider-Kamp,
- Abstract要約: 本研究では,100Kから48Mパラメータの小さな言語と視覚モデルに対する1.58ビットの量子化について検討する。
我々は、量子化プロセスにおける平均よりも中央値に依存するビットネットb1.58の変種を導入する。
- 参考スコア(独自算出の注目度): 2.2300270962881075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently proposed methods for 1-bit and 1.58-bit quantization aware training investigate the performance and behavior of these methods in the context of large language models, finding state-of-the-art performance for models with more than 3B parameters. In this work, we investigate 1.58-bit quantization for small language and vision models ranging from 100K to 48M parameters. We introduce a variant of BitNet b1.58, which allows to rely on the median rather than the mean in the quantization process. Through extensive experiments we investigate the performance of 1.58-bit models obtained through quantization aware training. We further investigate the robustness of 1.58-bit quantization-aware training to changes in the learning rate and regularization through weight decay, finding different patterns for small language and vision models than previously reported for large language models. Our results showcase that 1.58-bit quantization-aware training provides state-of-the-art performance for small language models when doubling hidden layer sizes and reaches or even surpasses state-of-the-art performance for small vision models of identical size. Ultimately, we demonstrate that 1.58-bit quantization-aware training is a viable and promising approach also for training smaller deep learning networks, facilitating deployment of such models in low-resource use-cases and encouraging future research.
- Abstract(参考訳): 近年,1ビットおよび1.58ビットの量子化学習法が提案され,これらの手法の性能と挙動を大規模言語モデルの文脈で検証し,3B以上のパラメータを持つモデルに対する最先端の性能を見出した。
本研究では,100Kから48Mパラメータの小さな言語と視覚モデルに対する1.58ビットの量子化について検討する。
我々は、量子化プロセスにおける平均よりも中央値に依存するビットネットb1.58の変種を導入する。
広範にわたる実験により,量子化学習により得られた1.58ビットモデルの性能について検討した。
さらに,1.58ビットの量子化学習による学習率の変化と重み減衰による正規化に対するロバスト性について検討した。
この結果から,1.58ビットの量子化学習は,隠蔽層の大きさを2倍にし,同じ大きさの小型ビジョンモデルに対して,最先端の性能を達成または超えた場合,小型言語モデルに対して,最先端のパフォーマンスを提供することを示した。
最終的に、1.58ビットの量子化対応トレーニングは、より小さなディープラーニングネットワークのトレーニングにも有効で有望なアプローチであり、低リソースのユースケースでのそのようなモデルのデプロイを容易にし、将来の研究を促進することを実証する。
関連論文リスト
- When are 1.58 bits enough? A Bottom-up Exploration of BitNet Quantization [5.67099529296254]
ここでは,デコーダのみの言語モデルを3次重み付き競争状態(1.58ビット/重み)にトレーニング可能であることを示す。
その結果,1.58ビットのトレーニングは標準の32/16ビットモデルと同等か,場合によっては同等であることがわかった。
論文 参考訳(メタデータ) (2024-11-08T07:24:49Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - BitsFusion: 1.99 bits Weight Quantization of Diffusion Model [43.11229823281721]
安定拡散v1.5から1.99ビットまでのUNetを量子化し、7.9倍のサイズのモデルを実現する新しい重み量子化法を開発した。
我々は、様々なベンチマークデータセットと人による評価を通じて、量子化モデルを広範囲に評価し、その優れた生成品質を実証した。
論文 参考訳(メタデータ) (2024-06-06T17:59:23Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Scaling Instruction-Finetuned Language Models [126.4789306516927]
命令として表現されたデータセットの集合上での言語モデルの微調整は、モデル性能を改善することが示されている。
命令の微調整により,様々なモデルクラスの性能が劇的に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-20T16:58:32Z) - On Data Scaling in Masked Image Modeling [36.00347416479826]
マスク付き画像モデリング(MIM)は、大きなデータの恩恵を受けられないと疑われている。
ImageNet-1Kの10%から完全なImageNet-22Kまで、モデルサイズは4900万から10億まで、トレーニング期間は125万から5万まで。
事前トレーニングにおけるバリデーションの損失は、複数のタスクの微調整においてモデルがどれだけうまく機能するかを測定するのに良い指標である。
論文 参考訳(メタデータ) (2022-06-09T17:58:24Z) - On Resource-Efficient Bayesian Network Classifiers and Deep Neural
Networks [14.540226579203207]
ベイズネットワーク(BN)分類器の複雑さを低減するための2つの方法を提案する。
まず、ストレートスルー勾配推定器を用いてBNのパラメータを数ビットに量子化する量子化学習を導入する。
第2に、モデルサイズも考慮し、最近提案された微分可能な木強化ナイーブベイズ (TAN) 構造学習手法を拡張した。
論文 参考訳(メタデータ) (2020-10-22T14:47:55Z) - Scalable and Practical Natural Gradient for Large-Scale Deep Learning [19.220930193896404]
SP-NGDは1次法に比べて計算オーバーヘッドが無視できるような大きなミニバッチサイズにスケールする。
また,SP-NGDの873ステップにおいて,超大小バッチサイズ131,072の74.9%,32,768の1024GPUを用いた5.5分でトップ1検証精度75.4%の収束性を示した。
論文 参考訳(メタデータ) (2020-02-13T11:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。