論文の概要: Collage: Light-Weight Low-Precision Strategy for LLM Training
- arxiv url: http://arxiv.org/abs/2405.03637v1
- Date: Mon, 6 May 2024 16:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 13:07:25.296041
- Title: Collage: Light-Weight Low-Precision Strategy for LLM Training
- Title(参考訳): Collage: LLMトレーニングのための軽量低精度戦略
- Authors: Tao Yu, Gaurav Gupta, Karthick Gopalswamy, Amith Mamidala, Hao Zhou, Jeffrey Huynh, Youngsuk Park, Ron Diamant, Anoop Deoras, Luke Huan,
- Abstract要約: 低精度浮動小数点は、トレーニング過程における臨界点における誤差が適切に補償されている場合、十分に機能する可能性があると我々は主張する。
本論文では,マルチコンポーネントフロート表現を低精度で利用し,数値誤差を考慮した演算を高精度に行うコラージュを提案する。
提案手法は半精度(16$-bit 浮動小数点)のような一般的な低精度で動作し、8$-bit などのより低い精度で動作するように自然に拡張できる。
- 参考スコア(独自算出の注目度): 21.190363633580233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large models training is plagued by the intense compute cost and limited hardware memory. A practical solution is low-precision representation but is troubled by loss in numerical accuracy and unstable training rendering the model less useful. We argue that low-precision floating points can perform well provided the error is properly compensated at the critical locations in the training process. We propose Collage which utilizes multi-component float representation in low-precision to accurately perform operations with numerical errors accounted. To understand the impact of imprecision to training, we propose a simple and novel metric which tracks the lost information during training as well as differentiates various precision strategies. Our method works with commonly used low-precision such as half-precision ($16$-bit floating points) and can be naturally extended to work with even lower precision such as $8$-bit. Experimental results show that pre-training using Collage removes the requirement of using $32$-bit floating-point copies of the model and attains similar/better training performance compared to $(16, 32)$-bit mixed-precision strategy, with up to $3.7\times$ speedup and $\sim 15\%$ to $23\%$ less memory usage in practice.
- Abstract(参考訳): 大規模なモデルトレーニングは、計算コストの激しさとハードウェアメモリの制限に悩まされている。
現実的な解法は低精度表現であるが、数値的精度の低下と不安定なトレーニングにより、モデルは役に立たない。
低精度浮動小数点は、トレーニング過程における臨界点における誤差が適切に補償されている場合、十分に機能する可能性があると我々は主張する。
本論文では,マルチコンポーネントフロート表現を低精度で利用し,数値誤差を考慮した演算を高精度に行うコラージュを提案する。
トレーニングにおける不正確さの影響を理解するために,学習中に失った情報を追跡し,様々な精度戦略を区別する,シンプルで斬新な指標を提案する。
提案手法は半精度(16$-bit 浮動小数点)のような一般的な低精度で動作し、8$-bit などのより低い精度で動作するように自然に拡張できる。
実験結果から、Colllageを使用した事前トレーニングでは、32ドルの浮動小数点コピーを使用する必要がなくなり、実際のメモリ使用量で最大$3.7\times$ Speedupと$\sim 15\%$から$23\%の差がある16, 32)$-bit混合精度戦略と比較して、同様の/ベタトレーニング性能が得られることがわかった。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。
推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。
トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文 参考訳(メタデータ) (2024-11-07T00:10:10Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Training with Mixed-Precision Floating-Point Assignments [8.5323697848377]
より少ないメモリを使用する畳み込みニューラルネットワークの精度割当を生成する。
CIFAR-10, CIFAR-100, ImageNet上で, 畳み込みネットワークを訓練し, 画像分類タスクの評価を行った。
論文 参考訳(メタデータ) (2023-01-31T08:01:35Z) - Adaptive Low-Precision Training for Embeddings in Click-Through Rate
Prediction [36.605153166169224]
埋め込みテーブルは通常、クリックスルーレート(CTR)予測モデルにおいて巨大である。
我々は,低精度トレーニング(low-precision training)と呼ばれる,新しい量子化トレーニングパラダイムを定式化して,埋め込みをトレーニング段階から圧縮する。
CTRモデルでは,予測精度を犠牲にすることなく8ビット埋め込みのトレーニングに成功した。
論文 参考訳(メタデータ) (2022-12-12T07:19:14Z) - Adversarial Unlearning: Reducing Confidence Along Adversarial Directions [88.46039795134993]
本稿では,自己生成事例の信頼性を低下させる補完的な正規化戦略を提案する。
RCADと呼ばれるこの手法は、トレーニング損失を増やすために反対に選択された方向に沿って横たわっている流通外の事例に対する信頼性を低下させることを目的としている。
その単純さにもかかわらず、多くの分類ベンチマークでは、RCADを既存の技術に追加して、絶対値の1~3%の精度でテストできることがわかった。
論文 参考訳(メタデータ) (2022-06-03T02:26:24Z) - BMPQ: Bit-Gradient Sensitivity Driven Mixed-Precision Quantization of
DNNs from Scratch [11.32458063021286]
本稿では、ビット勾配を用いて層感度を分析し、混合精度の量子化モデルを生成する学習手法であるBMPQを提案する。
トレーニングを1回行う必要があるが、トレーニング済みのベースラインは必要ない。
ベースラインのFP-32モデルと比較して、BMPQは15.4倍少ないパラメータビットを持つモデルの精度は無視できる。
論文 参考訳(メタデータ) (2021-12-24T03:16:58Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - How Low Can We Go: Trading Memory for Error in Low-Precision Training [52.94003953419242]
低精度算術は、少ないエネルギー、少ないメモリ、少ない時間でディープラーニングモデルを訓練する。
私たちは貯金の代償を支払っている: 精度の低い方がラウンドオフエラーが大きくなり、したがって予測エラーが大きくなる可能性がある。
私たちはメタラーニングのアイデアを借りて、メモリとエラーのトレードオフを学びます。
論文 参考訳(メタデータ) (2021-06-17T17:38:07Z) - PositNN: Training Deep Neural Networks with Mixed Low-Precision Posit [5.534626267734822]
本研究は、ポジットを用いた深層畳み込みニューラルネットワークの訓練の可能性を評価することを目的とする。
エンドツーエンドのトレーニングと推論にシミュレートされたポジットとクィアを使用するソフトウェアフレームワークが開発された。
その結果、8ビットポジットはトレーニング中に32ビットフロートを置換でき、その結果の損失や精度に悪影響を及ぼさないことが示唆された。
論文 参考訳(メタデータ) (2021-04-30T19:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。