論文の概要: Unit Scaling: Out-of-the-Box Low-Precision Training
- arxiv url: http://arxiv.org/abs/2303.11257v2
- Date: Tue, 30 May 2023 22:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 02:51:04.120706
- Title: Unit Scaling: Out-of-the-Box Low-Precision Training
- Title(参考訳): Unit Scaling: アウトオブボックスの低精度トレーニング
- Authors: Charlie Blake, Douglas Orr, Carlo Luschi
- Abstract要約: 単位スケーリングは、低精度の数値形式の使用を単純化するディープラーニングモデルを設計するためのパラダイムである。
FP16や最近提案されたFP8フォーマットでのトレーニングは、大幅な効率向上をもたらすが、アウト・オブ・ザ・ボックスのトレーニングには十分な範囲を欠く可能性がある。
単位スケーリングは、全てのウェイト、アクティベーション、および初期化時の勾配の単位分散を求める、数値をモデル化するための原則化されたアプローチを導入することで、この問題に対処する。
- 参考スコア(独自算出の注目度): 1.7188280334580197
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present unit scaling, a paradigm for designing deep learning models that
simplifies the use of low-precision number formats. Training in FP16 or the
recently proposed FP8 formats offers substantial efficiency gains, but can lack
sufficient range for out-of-the-box training. Unit scaling addresses this by
introducing a principled approach to model numerics: seeking unit variance of
all weights, activations and gradients at initialisation. Unlike alternative
methods, this approach neither requires multiple training runs to find a
suitable scale nor has significant computational overhead. We demonstrate the
efficacy of unit scaling across a range of models and optimisers. We further
show that existing models can be adapted to be unit-scaled, training BERT-Large
in FP16 and then FP8 with no degradation in accuracy.
- Abstract(参考訳): 我々は,低精度数形式の使用を単純化する深層学習モデルを設計するためのパラダイムであるユニットスケーリングを提案する。
FP16や最近提案されたFP8フォーマットでのトレーニングは、大幅な効率向上をもたらすが、アウト・オブ・ザ・ボックスのトレーニングには十分な範囲がない。
ユニットスケーリングは、初期化時にすべてのウェイト、アクティベーション、勾配の単位分散を求めるという、数値モデルへの原則的なアプローチを導入することで、これに対処する。
代替手法とは異なり、このアプローチは適切なスケールを見つけるために複数のトレーニングを実行する必要はなく、計算オーバーヘッドも大きい。
様々なモデルとオプティマイザにまたがるユニットスケーリングの有効性を実証する。
さらに、既存のモデルを単位スケールに適応させ、FP16でBERTラージを訓練し、FP8で精度を劣化させることなくFP8を訓練できることを示す。
関連論文リスト
- Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - FP8-BERT: Post-Training Quantization for Transformer [20.51143486483669]
BERTのようなトランスフォーマーベースのモデルでは、大規模なメモリストレージと本番環境にデプロイする際の推論コストが要求される。
新しい数値フォーマットFP8が提案され、H100のような商用AIコンピューティングプラットフォームでサポートされている。
我々は,FP8の有効性を,精度を著しく損なうことなく,ポストトレーニング量子化を行う方法として実証的に検証した。
論文 参考訳(メタデータ) (2023-12-10T02:14:34Z) - Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。
実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-11-30T18:58:26Z) - FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。
実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文 参考訳(メタデータ) (2023-10-27T17:59:51Z) - Training and inference of large language models using 8-bit floating
point [3.689110902209004]
本稿では,重み,勾配,アクティベーションを動的に更新し,FP8線形層のスケーリングを選択する手法を提案する。
本稿では,111Mから70Bまでのモデルサイズに対して,FP8を用いたGPTとLlama 2の言語モデルの訓練と検証を行う。
論文 参考訳(メタデータ) (2023-09-29T13:24:33Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - All-You-Can-Fit 8-Bit Flexible Floating-Point Format for Accurate and
Memory-Efficient Inference of Deep Neural Networks [2.294014185517203]
本稿では,非常にフレキシブルな8ビット浮動小数点 (FFP8) フォーマットを提案する。
複数の代表的な画像分類モデルに対して、0.1%sim 0.3%の極めて低い精度の損失を達成している。
古典的な浮動小数点処理ユニットをFFP8準拠のユニットに変えるのは簡単で、余分なハードウェアコストは小さい。
論文 参考訳(メタデータ) (2021-04-15T09:37:23Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。