論文の概要: Direct Quantized Training of Language Models with Stochastic Rounding
- arxiv url: http://arxiv.org/abs/2412.04787v1
- Date: Fri, 06 Dec 2024 05:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:30.542372
- Title: Direct Quantized Training of Language Models with Stochastic Rounding
- Title(参考訳): 確率的ラウンドリングを用いた言語モデルの直接量子化学習
- Authors: Kaiyan Zhao, Tsuguchika Tabaru, Kenichi Kobayashi, Takumi Honda, Masafumi Yamazaki, Yoshimasa Tsuruoka,
- Abstract要約: 本稿では,バックプロパゲーション中のストレートスルー推定器に頼ることなく,量子化低精度行列を直接更新する可能性について検討する。
LLaMA構造モデルによる実験結果から,3次値に制約された場合でも,低精度の重み付きトレーニングが実現可能であることが示唆された。
私たちのモデルは3次重みを使って推論も行えます。
- 参考スコア(独自算出の注目度): 12.028887152979046
- License:
- Abstract: Although recent quantized Large Language Models (LLMs), such as BitNet, have paved the way for significant reduction in memory usage during deployment with binary or ternary weights, training these models still demands substantial memory footprints. This is partly because high-precision (i.e., unquantized) weight matrices required for straight-through estimation must be maintained throughout the whole training process. To address this, we explore the potential of directly updating the quantized low-precision weight matrices without relying on the straight-through estimator during backpropagation, thereby saving memory usage during training. Specifically, we employ a stochastic rounding technique to minimize information loss caused by the use of low-bit weights throughout training. Experimental results on our LLaMA-structured models indicate that (1) training with only low-precision weights is feasible even when they are constrained to ternary values, (2) extending the bit width to 8 bits results in only a 5% loss degradation compared to BitNet b1.58 while offering the potential for reduced memory usage during training, and (3) our models can also perform inference using ternary weights, showcasing their flexibility in deployment.
- Abstract(参考訳): BitNetのような最近の量子化大言語モデル(LLM)は、バイナリや3次重みによるデプロイメント中のメモリ使用量の大幅な削減の道を開いたが、これらのモデルのトレーニングは依然としてかなりのメモリフットプリントを必要としている。
これは部分的には、ストレートスルー推定に必要な高精度(すなわち、非定量化)の重量行列が、トレーニングプロセス全体を通して維持されなければならないためである。
そこで本研究では,バックプロパゲーション中にストレートスルー推定器を使わずに,量子化低精度行列を直接更新する可能性を探る。
具体的には、トレーニングを通しての低ビット重みの使用による情報損失を最小限に抑えるために、確率的なラウンドリング手法を用いる。
LLaMA構造モデルを用いた実験結果から,(1)3次値に制約された場合においても,低精度重みのみのトレーニングが実現可能であること,(2)ビット幅を8ビットに拡張すると,トレーニング中のメモリ使用量を減らす可能性を提供しながら,ビットネットb1.58に比べて5%の損失低下しか生じないこと,(3)3次重みを用いた推論も可能であること,(3)展開時の柔軟性を示すこと,などが示唆された。
関連論文リスト
- Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。
推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。
トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文 参考訳(メタデータ) (2024-11-07T00:10:10Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Enabling Binary Neural Network Training on the Edge [7.32770338248516]
既存のバイナリニューラルネットワークトレーニング手法では、すべてのレイヤに対して高精度なアクティベーションを同時に保存する必要がある。
本稿では,メモリフットプリントの大幅な削減を図った,低コストなバイナリニューラルネットワークトレーニング戦略を提案する。
また、2ナライズされたResNet-18のin-scratch ImageNetトレーニングも実施し、3.78$times$メモリ削減を実現した。
論文 参考訳(メタデータ) (2021-02-08T15:06:41Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。