論文の概要: Why Gradients Rapidly Increase Near the End of Training
- arxiv url: http://arxiv.org/abs/2506.02285v2
- Date: Mon, 09 Jun 2025 22:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 12:52:34.252603
- Title: Why Gradients Rapidly Increase Near the End of Training
- Title(参考訳): トレーニング終了間近でグラディエントが急上昇する理由
- Authors: Aaron Defazio,
- Abstract要約: この増加は、体重減少、正規化層、学習率スケジュールの意図しない相互作用によるものであることを示す。
本稿では、この動作を修正しながら、トレーニングを通して損失値の低減を図った簡単な修正を提案する。
- 参考スコア(独自算出の注目度): 7.23389716633927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During long-duration Large Language Model (LLM) training runs the gradient norm increases rapidly near the end of training. In this short note, we show that this increase is due to an unintended interaction between weight decay, normalization layers, and the learning rate schedule. We propose a simple correction that fixes this behavior while also resulting in lower loss values throughout training.
- Abstract(参考訳): 長期にわたるLarge Language Model (LLM)トレーニングの間、勾配ノルムはトレーニングの終わり近くで急速に増加する。
本稿では, この増加は, 減量, 正規化層, 学習率スケジュールの意図しない相互作用によるものであることを示す。
本稿では、この動作を修正しながら、トレーニングを通して損失値の低減を図った簡単な修正を提案する。
関連論文リスト
- Gradient Flossing: Improving Gradient Descent through Dynamic Control of
Jacobians [4.532517021515834]
リカレントニューラルネットワーク(RNN)のトレーニングは、長時間の地平線を越えた勾配の不安定性のため、依然として課題である。
最近の研究は、これらの問題を前方力学に対するリアプノフ指数の値に関連付けている。
学習中にリアプノフ指数をゼロに推し進めることで勾配不安定に対処する新しい手法である勾配フロス法を提案する。
論文 参考訳(メタデータ) (2023-12-28T18:51:20Z) - The Disharmony between BN and ReLU Causes Gradient Explosion, but is
Offset by the Correlation between Activations [27.828929309383774]
バッチ正規化とReLUライクなアクティベーション機能を利用するディープニューラルネットワークは、時間勾配の爆発によって引き起こされる高勾配のため、トレーニングの初期段階で不安定な状態に陥る。
本研究では, 理論的にも実験的にも勾配爆発の発生と緩和を解析し, 運動の相関がトレーニング中も勾配爆発が持続するのを防ぐ重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2023-04-23T15:57:15Z) - Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文 参考訳(メタデータ) (2023-03-02T18:59:15Z) - Balance is Essence: Accelerating Sparse Training via Adaptive Gradient
Correction [29.61757744974324]
ディープニューラルネットワークでは、メモリと計算コストが大幅に削減される。
スパーストレーニングは、これらのコストを削減する最も一般的な手法の1つである。
本研究では,この問題を克服し,時空協調効率の実現を目指す。
論文 参考訳(メタデータ) (2023-01-09T18:50:03Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z) - Gradient Descent on Neural Networks Typically Occurs at the Edge of
Stability [94.4070247697549]
ニューラルネットワークトレーニング対象に対するフルバッチ勾配降下は、安定性のエッジと呼ばれるレジームで動作します。
この体制では、トレーニング損失 Hessian の最大固有値は2/text(ステップサイズ)$ の数値よりすぐ上にあり、トレーニング損失は短い時間スケールで非単調に振る舞うが、長い時間スケールでは一貫して減少する。
論文 参考訳(メタデータ) (2021-02-26T22:08:19Z) - MTAdam: Automatic Balancing of Multiple Training Loss Terms [95.99508450208813]
複数の損失項を扱うためにAdam最適化アルゴリズムを一般化する。
新たな手法によるトレーニングは, 最適初期損失重み付けの早期回復につながることを示す。
論文 参考訳(メタデータ) (2020-06-25T20:27:27Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。