論文の概要: EMA Without the Lag: Bias-Corrected Iterate Averaging Schemes
- arxiv url: http://arxiv.org/abs/2508.00180v1
- Date: Thu, 31 Jul 2025 21:49:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.677825
- Title: EMA Without the Lag: Bias-Corrected Iterate Averaging Schemes
- Title(参考訳): 遅延のないEMA:バイアス補正されたイテレーション平均化スキーム
- Authors: Adam Block, Cyril Zhang,
- Abstract要約: バイアス補正指数移動平均値(BEMA)
BEMAは,EMAトレーニングとバニラトレーニングの両方に対して,コンバージェンス率と最終成績が有意に向上することを示した。
BEMAはより安定で効率的な微調整のための実用的で理論的に動機付けられた介入である。
- 参考スコア(独自算出の注目度): 15.18685417164164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochasticity in language model fine-tuning, often caused by the small batch sizes typically used in this regime, can destabilize training by introducing large oscillations in generation quality. A popular approach to mitigating this instability is to take an Exponential moving average (EMA) of weights throughout training. While EMA reduces stochasticity, thereby smoothing training, the introduction of bias from old iterates often creates a lag in optimization relative to vanilla training. In this work, we propose the Bias-Corrected Exponential Moving Average (BEMA), a simple and practical augmentation of EMA that retains variance-reduction benefits while eliminating bias. BEMA is motivated by a simple theoretical model wherein we demonstrate provable acceleration of BEMA over both a standard EMA and vanilla training. Through an extensive suite of experiments on Language Models, we show that BEMA leads to significantly improved convergence rates and final performance over both EMA and vanilla training in a variety of standard LM benchmarks, making BEMA a practical and theoretically motivated intervention for more stable and efficient fine-tuning.
- Abstract(参考訳): 言語モデルの微調整における確率性は、しばしばこの体制で一般的に使用される小さなバッチサイズによって引き起こされるが、生成品質に大きな振動を導入してトレーニングを不安定にすることができる。
この不安定を緩和するための一般的なアプローチは、トレーニングを通して指数移動平均(EMA)を取ることである。
EMAは確率性を低下させ、トレーニングを円滑にするが、古いイテレーションからのバイアスの導入は、バニラトレーニングと比較して最適化の遅れを生じることが多い。
本研究では, バイアスを排除しつつ分散還元効果を維持するEMAの簡易かつ実用的な拡張であるBias-Corrected Exponential moving Average (BEMA)を提案する。
BEMAは、標準的なEMAとバニラトレーニングの両方に対して、BEMAの証明可能な加速を実証するシンプルな理論モデルによって動機付けられている。
言語モデルに関する広範な実験を通して、BEMAは、様々な標準LMベンチマークにおいて、EMAとバニラトレーニングの両方に対する収束率と最終性能を大幅に向上させ、より安定で効率的な微調整のための実用的で理論的に動機づけられた介入となることを示す。
関連論文リスト
- Understanding SGD with Exponential Moving Average: A Case Study in Linear Regression [55.2480439325792]
指数移動平均(EMA)は近年,現代のディープラーニングモデルのトレーニングにおいて大きな人気を集めている。
本稿では,高次元線形回帰のためのオンラインSGDとEMAのリスクバウンダリを確立する。
論文 参考訳(メタデータ) (2025-02-19T21:55:11Z) - Exponential Moving Average of Weights in Deep Learning: Dynamics and Benefits [11.801688624472009]
重量の指数移動平均(EMA)について系統的研究を行った。
EMA ソリューションは最終項目のソリューションと異なることを示す。
重みのEMAは、深層学習モデルの性能を向上させるためのシンプルで効果的なプラグインであることが示唆された。
論文 参考訳(メタデータ) (2024-11-27T19:14:27Z) - The AdEMAMix Optimizer: Better, Faster, Older [24.470432924661324]
この研究は、過去の勾配を蓄積するための単一のEMAの使用に疑問を投げかけ、この選択がいかに準最適であるかを実証的に示す。
本稿では,2つのEMAを混合したAdamの簡単な修正であるAdEMAMixを提案する。
言語モデリングと画像分類に関する我々の実験は、驚くほど驚くべきことに、勾配が数万のステップに関連があることを示しています。
論文 参考訳(メタデータ) (2024-09-05T00:13:16Z) - Switch EMA: A Free Lunch for Better Flatness and Sharpness [58.55452862747021]
この研究は、一行の修正、すなわち、スイッチ(SEMA)と呼ばれる各エポック後のパラメータを元のモデルに切り替えることによって、EMAの完全なポテンシャルを明らかにする。
理論的および経験的両面から、SEMAはDNNが平坦性と鋭さのトレードオフを良くする一般化最適点に到達するのに役立つことを実証する。
論文 参考訳(メタデータ) (2024-02-14T15:28:42Z) - Exponential weight averaging as damped harmonic motion [13.305570580429489]
指数移動平均 (EMA) は、ディープラーニング最適化において安定した量の推定値を提供するために一般的に用いられる統計量である。
本稿では, EMAと減衰調和系との間には, 理想化されたゼロ長ばねにより一方の粒子(EMA重み)を他方の粒子(モデル重み)に引いて有意な結合を導出する。
次に、この物理アナロジーを利用して、EMAの有効性を分析し、BELAYと呼ばれる改良されたトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-20T23:15:46Z) - How to Scale Your EMA [20.94711634514331]
モデルEMAが存在する場合、最適化のためのスケーリングルールを提供する。
本稿では,モデルEMAが対象モデルの最適化に寄与するルールの有効性を示す。
自己指導型学習では、パフォーマンスを犠牲にすることなく、バッチサイズ24,576までのBYOLのトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-07-25T20:33:48Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - No MCMC for me: Amortized sampling for fast and stable training of
energy-based models [62.1234885852552]
エネルギーベースモデル(EBM)は、不確実性を表す柔軟で魅力的な方法である。
本稿では,エントロピー規則化ジェネレータを用いてEMMを大規模に訓練し,MCMCサンプリングを記憶する簡単な方法を提案する。
次に、最近提案されたジョイント・エナジー・モデル(JEM)に推定器を適用し、元の性能と高速で安定したトレーニングとを一致させる。
論文 参考訳(メタデータ) (2020-10-08T19:17:20Z) - Contrastive Learning for Debiased Candidate Generation in Large-Scale
Recommender Systems [84.3996727203154]
コントラスト損失の一般的な選択は、逆確率重み付けによる露光バイアスの低減と等価であることを示す。
我々はCLRecをさらに改良し、マルチCLRecを提案する。
提案手法は,少なくとも4ヶ月のオンラインA/Bテストとオフライン分析が実施され,大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-20T08:15:23Z) - Training Deep Energy-Based Models with f-Divergence Minimization [113.97274898282343]
深部エネルギーベースモデル(EBM)は分布パラメトリゼーションにおいて非常に柔軟であるが、計算的に困難である。
所望のf偏差を用いてEMMを訓練するための、f-EBMと呼ばれる一般的な変分フレームワークを提案する。
実験の結果,F-EBMは対照的なばらつきよりも優れており,KL以外のf-divergencesを用いたEBMの訓練の利点も示された。
論文 参考訳(メタデータ) (2020-03-06T23:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。