Fugu-MT 論文翻訳(概要): Unit Scaling: Out-of-the-Box Low-Precision Training

論文の概要: Unit Scaling: Out-of-the-Box Low-Precision Training

arxiv url: http://arxiv.org/abs/2303.11257v2
Date: Tue, 30 May 2023 22:05:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 02:51:04.120706
Title: Unit Scaling: Out-of-the-Box Low-Precision Training
Title（参考訳）: Unit Scaling: アウトオブボックスの低精度トレーニング
Authors: Charlie Blake, Douglas Orr, Carlo Luschi
Abstract要約: 単位スケーリングは、低精度の数値形式の使用を単純化するディープラーニングモデルを設計するためのパラダイムである。 FP16や最近提案されたFP8フォーマットでのトレーニングは、大幅な効率向上をもたらすが、アウト・オブ・ザ・ボックスのトレーニングには十分な範囲を欠く可能性がある。単位スケーリングは、全てのウェイト、アクティベーション、および初期化時の勾配の単位分散を求める、数値をモデル化するための原則化されたアプローチを導入することで、この問題に対処する。
参考スコア（独自算出の注目度）: 1.7188280334580197
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We present unit scaling, a paradigm for designing deep learning models that simplifies the use of low-precision number formats. Training in FP16 or the recently proposed FP8 formats offers substantial efficiency gains, but can lack sufficient range for out-of-the-box training. Unit scaling addresses this by introducing a principled approach to model numerics: seeking unit variance of all weights, activations and gradients at initialisation. Unlike alternative methods, this approach neither requires multiple training runs to find a suitable scale nor has significant computational overhead. We demonstrate the efficacy of unit scaling across a range of models and optimisers. We further show that existing models can be adapted to be unit-scaled, training BERT-Large in FP16 and then FP8 with no degradation in accuracy.
Abstract（参考訳）: 我々は,低精度数形式の使用を単純化する深層学習モデルを設計するためのパラダイムであるユニットスケーリングを提案する。 FP16や最近提案されたFP8フォーマットでのトレーニングは、大幅な効率向上をもたらすが、アウト・オブ・ザ・ボックスのトレーニングには十分な範囲がない。ユニットスケーリングは、初期化時にすべてのウェイト、アクティベーション、勾配の単位分散を求めるという、数値モデルへの原則的なアプローチを導入することで、これに対処する。代替手法とは異なり、このアプローチは適切なスケールを見つけるために複数のトレーニングを実行する必要はなく、計算オーバーヘッドも大きい。様々なモデルとオプティマイザにまたがるユニットスケーリングの有効性を実証する。さらに、既存のモデルを単位スケールに適応させ、FP16でBERTラージを訓練し、FP8で精度を劣化させることなくFP8を訓練できることを示す。

関連論文リスト

Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文参考訳（メタデータ） (2025-09-29T17:53:17Z)
Towards Fully FP8 GEMM LLM Training at Scale [77.39425361120466]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文参考訳（メタデータ） (2025-05-26T21:04:14Z)
Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.700481606604647]
実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。 FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文参考訳（メタデータ） (2025-02-17T05:33:11Z)
$μ$nit Scaling: Simple and Scalable FP8 LLM Training [6.447975505471247]
8ビット浮動小数点(FP8)フォーマットによる大規模言語モデルトレーニングでは、大幅な効率向上が期待できるが、数値的な精度の低下はトレーニングを困難にしている。モデルのサイズが大きければ、動的スケーリングファクタを必要としない、シンプルでスケーラブルなFP8トレーニングを実演します。 1Bから13Bパラメータのモデルをトレーニングし、FP8のすべての隠れ線形層計算を実行することにより、本手法の有効性を検証した。
論文参考訳（メタデータ） (2025-02-09T17:31:09Z)
Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文参考訳（メタデータ） (2025-01-28T18:04:50Z)
Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs [4.5440077473497364]
大きな言語モデル(LLM)は、人間の言語理解と生成能力によって大きな注目を集めている。これらのモデルは、その大規模で広範なトレーニングデータによって特徴づけられ、自然言語処理において何が可能であるかの境界を押し進めている。このようなモデルのトレーニングに関連する膨大な計算要求により、トレーニングプロセスの効率を最適化する研究が進められている。
論文参考訳（メタデータ） (2024-11-10T15:19:42Z)
Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文参考訳（メタデータ） (2024-11-07T00:10:10Z)
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [47.07768822212081]
COAT(States and Activations for FP8 Training)は、大規模なモデルをトレーニングする際のメモリフットプリントを大幅に削減するために設計された、新しいFP8トレーニングフレームワークである。 COATは、BF16と比較して、エンドツーエンドのトレーニングメモリフットプリントを1.54倍に効果的に削減する。 COATはまた、BF16と比較して1.43倍のエンドツーエンドのトレーニング速度を達成する。
論文参考訳（メタデータ） (2024-10-25T05:59:30Z)
AquilaMoE: Efficient Training for MoE Models with Scale-Up and Scale-Out Strategies [36.645912291368546]
AquilaMoEは最先端のバイリンガル8*16BMixture of Experts (MoE)言語モデルで、それぞれ16億のパラメータを持つ8人のエキスパートが参加する。このアプローチは、2段階のプロセスを通じてデータ要求を最小限にしながら、パフォーマンスを最適化する。我々は16Bモデルと8*16B AquilaMoEモデルの訓練に成功した。
論文参考訳（メタデータ） (2024-08-13T02:07:00Z)
Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文参考訳（メタデータ） (2024-07-19T21:47:57Z)
Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。テスト時間フォワード最適化適応法(FOA)を提案する。 FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文参考訳（メタデータ） (2024-04-02T05:34:33Z)
FP8-BERT: Post-Training Quantization for Transformer [20.51143486483669]
BERTのようなトランスフォーマーベースのモデルでは、大規模なメモリストレージと本番環境にデプロイする際の推論コストが要求される。新しい数値フォーマットFP8が提案され、H100のような商用AIコンピューティングプラットフォームでサポートされている。我々は,FP8の有効性を,精度を著しく損なうことなく,ポストトレーニング量子化を行う方法として実証的に検証した。
論文参考訳（メタデータ） (2023-12-10T02:14:34Z)
FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文参考訳（メタデータ） (2023-10-27T17:59:51Z)
Training and inference of large language models using 8-bit floating point [3.689110902209004]
本稿では,重み,勾配,アクティベーションを動的に更新し,FP8線形層のスケーリングを選択する手法を提案する。本稿では,111Mから70Bまでのモデルサイズに対して,FP8を用いたGPTとLlama 2の言語モデルの訓練と検証を行う。
論文参考訳（メタデータ） (2023-09-29T13:24:33Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。