Fugu-MT 論文翻訳(概要): Stochastic Rounding for LLM Training: Theory and Practice

論文の概要: Stochastic Rounding for LLM Training: Theory and Practice

arxiv url: http://arxiv.org/abs/2502.20566v1
Date: Thu, 27 Feb 2025 22:08:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.494192
Title: Stochastic Rounding for LLM Training: Theory and Practice
Title（参考訳）: LLMトレーニングのための確率的ラウンドリング:理論と実践
Authors: Kaan Ozkara, Tao Yu, Youngsuk Park,
Abstract要約: ラウンドリング(SR)を利用して,低精度表現による数値誤差に対処する。最大6.7Bパラメータの事前学習モデルによる実験結果から, SR戦略を用いたBF16が, 混合精度戦略(BF16, FP32)より優れていることが示された。
参考スコア（独自算出の注目度）: 15.071158535119539
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As the parameters of Large Language Models (LLMs) have scaled to hundreds of billions, the demand for efficient training methods -- balancing faster computation and reduced memory usage without sacrificing accuracy -- has become more critical than ever. In recent years, various mixed precision strategies, which involve different precision levels for optimization components, have been proposed to increase training speed with minimal accuracy degradation. However, these strategies often require manual adjustments and lack theoretical justification. In this work, we leverage stochastic rounding (SR) to address numerical errors of training with low-precision representation. We provide theoretical analyses of implicit regularization and convergence under the Adam optimizer when SR is utilized. With the insights from these analyses, we extend previous BF16 + SR strategy to be used in distributed settings, enhancing the stability and performance for large scale training. Empirical results from pre-training models with up to 6.7B parameters, for the first time, demonstrate that our BF16 with SR strategy outperforms (BF16, FP32) mixed precision strategies, achieving better validation perplexity, up to $1.54\times$ higher throughput, and $30\%$ less memory usage.
Abstract（参考訳）: 大規模言語モデル(LLM)のパラメータが数十億に拡大するにつれ、高速な計算とメモリ使用量の削減という効率的なトレーニング手法の需要は、これまで以上に重要になっている。近年,最適化コンポーネントの精度レベルが異なる混合精度戦略が提案されている。しかし、これらの戦略はしばしば手動の調整を必要とし、理論上の正当化を欠いている。本研究では,確率的ラウンドリング(SR)を利用して,低精度表現によるトレーニングの数値誤差に対処する。 SRを用いた場合,Adamオプティマイザの下で暗黙の正則化と収束の理論的解析を行う。これらの分析から得られた知見により、分散環境で使用される以前のBF16+SR戦略を拡張し、大規模トレーニングの安定性と性能を向上させる。最大6.7Bのパラメータを持つ事前トレーニングモデルによる実証的な結果は、私たちのBF16とSR戦略の混合精度戦略(BF16、FP32)よりも優れており、検証の難易度が向上し、最大1.54\times$高いスループットと30\%$少ないメモリ使用率を実現している。

関連論文リスト

Data Distribution as a Lever for Guiding Optimizers Toward Superior Generalization in LLMs [60.68927774057402]
はじめに、単純さのバイアスが小さくなれば、より良い一般化がもたらされることを示す。この知見に触発されて、訓練後のサンプルのアップサンプリングや強化によるトレーニングデータ分布がSBを減少させ、一般化の改善につながることを示す。我々はPhi2-2.7B, Llama3.2-1B, Gemma3-1B-PT, Qwen3-0.6B-Base など複数の言語モデルの性能向上を図る。
論文参考訳（メタデータ） (2026-01-31T07:40:36Z)
CAST: Continuous and Differentiable Semi-Structured Sparsity-Aware Training for Large Language Models [27.682531424487564]
スパシティアウェアトレーニングは、大きな言語モデルをハードウェアフレンドリーなスパースパターンに変換するための効果的なアプローチである。スパースモデルのための連続的かつ微分可能なスパース対応トレーニングフレームワークであるContinuous Adaptive Sparse Trainer (CAST)を提案する。以上の結果から,従来の最先端手法に比べて,トレーニングリソースの最小化による難易度とゼロショット精度の両面で有意な改善が見られた。
論文参考訳（メタデータ） (2025-09-30T09:28:47Z)
An Adaptive Volatility-based Learning Rate Scheduler [0.0]
VolSchedは、幾何学的ブラウン運動のようなプロセスにおけるボラティリティの概念にインスパイアされた、新しいLRスケジューラである。長期精度と短期精度のボラティリティの比を計算することで、VolSchedはLRを高原から脱出させ、訓練を安定させるために減少させる。
論文参考訳（メタデータ） (2025-07-11T05:45:53Z)
ESSA: Evolutionary Strategies for Scalable Alignment [8.418036456622158]
我々は,前向き推論とブラックボックス最適化のみを用いて,Large Language Models (LLM) を整列する勾配のないフレームワークであるESSAを提案する。 ESSAはQwen2.5-Math-7Bのテスト精度をGSM8Kで12.6%、PRM800Kで14.8%改善し、IFEvalでLLaMA3.1-8Bの精度を22.5%向上させた。大規模な設定では、ESSAは勾配ベースの方法よりもスケーリングが強い。
論文参考訳（メタデータ） (2025-07-06T16:23:07Z)
AdaLRS: Loss-Guided Adaptive Learning Rate Search for Efficient Foundation Model Pretraining [12.630306478872043]
オンライン最適学習率探索を行うプラグイン・アンド・プレイ適応学習率探索アルゴリズムである textbfAdaLRS を提案する。実験により,AdaLRSは最適近傍の最適学習率を顕著な効率と有効性で調整することが示された。
論文参考訳（メタデータ） (2025-06-16T09:14:01Z)
The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文参考訳（メタデータ） (2025-01-21T20:23:22Z)
HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs [45.37278584462772]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。 LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
論文参考訳（メタデータ） (2025-01-05T18:41:54Z)
Optimization Hyper-parameter Laws for Large Language Models [52.49860340549727]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文参考訳（メタデータ） (2024-09-07T09:37:19Z)
Enhancing One-shot Pruned Pre-trained Language Models through Sparse-Dense-Sparse Mechanism [25.36736897890854]
事前学習された言語モデル(PLM)は、文脈理解において堅牢で、様々な自然言語処理タスクにおいて優れた性能を示すように設計されている。現代のプルーニング戦略では、タスク特化データや一般的なデータの再トレーニングを必要とせずに、PLMを圧縮するためのワンショット技術を採用している。重み分布最適化の観点から, 刈り取られたPLMの性能を向上させるためのスパース・デンス・スパース・プルーニング・フレームワークであるSDSを提案する。
論文参考訳（メタデータ） (2024-08-20T01:05:45Z)
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。 ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文参考訳（メタデータ） (2024-07-30T06:33:44Z)
To FP8 and Back Again: Quantifying Reduced Precision Effects on LLM Training Stability [7.115739465137031]
BrainFloat16 (BF16) の精度は、大規模な言語モデルの事前トレーニングのデファクトスタンダードになっている。しかしながら、BF16より安定でないことが判明したFP16の以前の経験は、FP8がLCM訓練の費用対効果があるかどうかという懸念を提起している。自己回帰言語モデルにおける損失ランドスケープのシャープネスを定量化するための新しい評価手法と新しい指標を提案する。
論文参考訳（メタデータ） (2024-05-29T02:42:23Z)
Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-20T07:09:56Z)
Surrogate Lagrangian Relaxation: A Path To Retrain-free Deep Neural Network Pruning [9.33753001494221]
ネットワークプルーニングは、ディープニューラルネットワークの計算コストとモデルサイズの削減に広く用いられている手法である。本稿では,サロゲートラグランジアン緩和に基づく体系的な重み付け最適化手法を開発する。
論文参考訳（メタデータ） (2023-04-08T22:48:30Z)
Dynamic Sparse Training via Balancing the Exploration-Exploitation Trade-off [19.230329532065635]
スパーストレーニングは、モデルサイズを減らすことで、トレーニングコストを大幅に削減する可能性がある。既存のスパーストレーニング方法は、主にランダムベースまたはグリーディベースのドロップ・アンド・グロー戦略を使用する。本研究では,動的スパース学習をスパース接続探索問題として考察する。実験の結果,提案手法により得られたスパースモデル(最大98%のスパース)は,SOTAスパース訓練法より優れていた。
論文参考訳（メタデータ） (2022-11-30T01:22:25Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the Edge [72.16021611888165]
本稿では,エッジデバイス上での高精度かつ高速な実行を目的とした,メモリ・エコノミクス・スパース・トレーニング(MEST)フレームワークを提案する。提案されているMESTフレームワークは、Elastic Mutation (EM)とSoft Memory Bound (&S)による拡張で構成されている。以上の結果から,スペーサマスクの動的探索においても,忘れられない例をその場で特定できることが示唆された。
論文参考訳（メタデータ） (2021-10-26T21:15:17Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。