論文の概要: (How) Learning Rates Regulate Catastrophic Overtraining
- arxiv url: http://arxiv.org/abs/2604.13627v1
- Date: Wed, 15 Apr 2026 08:53:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.456064
- Title: (How) Learning Rates Regulate Catastrophic Overtraining
- Title(参考訳): (どのようにして)学習速度は破滅的過度のトレーニングを規制する
- Authors: Mark Rofin, Aditya Varre, Nicolas Flammarion,
- Abstract要約: Supervised Fine-tuning (SFT) は、LPM後トレーニングの一般的な第1段階である。
学習速度の暗黙的正規化のレンズによる微調整における破滅的忘れについて検討した。
学習速度の減衰は、事前訓練されたモデルのシャープネスを増大させ、その結果、SFT中の破滅的な忘れを悪化させる。
- 参考スコア(独自算出の注目度): 31.988459260329353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) is a common first stage of LLM post-training, teaching the model to follow instructions and shaping its behavior as a helpful assistant. At the same time, SFT may harm the fundamental capabilities of an LLM, particularly after long pretraining: a phenomenon known as catastrophic overtraining (Springer et al., 2025). To understand overtraining, we first investigate catastrophic forgetting in finetuning through the lens of implicit regularization of the learning rate. For models trained to the same SFT loss, we identify how the learning rate mediates optimization: finetuning with large and small steps converges to qualitatively different models. Next, we link forgetting to overtraining: learning rate decay increases the sharpness of the pretrained model, which in turn exacerbates catastrophic forgetting during SFT, leading to overtraining. Our findings paint a picture of the overtraining mechanism in LLMs and broadly contribute to the understanding of the interplay between optimization dynamics during pretraining and finetuning.
- Abstract(参考訳): Supervised Fine-tuning (SFT) はLLMポストトレーニングの一般的な第1段階であり、モデルに指示に従うように教え、補助的なアシスタントとしてその振る舞いを形作る。
同時に、SFTはLLMの基本的な能力、特に長期の事前訓練の後、破滅的なオーバートレーニング(Springer et al , 2025)として知られる現象を害する可能性がある。
オーバートレーニングを理解するために,我々はまず,学習率の暗黙的な正則化のレンズを通して微調整を行う際の破滅的な忘れを調査する。
同じSFT損失に訓練されたモデルに対して、学習速度が最適化をどのように仲介するかを特定する: 大きなステップと小さなステップによる微調整は質的に異なるモデルに収束する。
次に, 学習速度減衰は事前学習モデルのシャープネスを高め, SFT中の破滅的忘れを悪化させ, 過トレーニングにつながる。
本研究は,LLMにおけるオーバートレーニング機構の絵を描き,事前学習と微調整の際の最適化力学間の相互作用の理解に広く貢献する。
関連論文リスト
- Pre-training LLM without Learning Rate Decay Enhances Supervised Fine-Tuning [17.543161067319023]
大規模言語モデルの大規模事前学習における学習率スケジューリングの役割について検討する。
Warmup-Stable-Only (WSO) は温暖化後に一定の学習率を維持している。
論文 参考訳(メタデータ) (2026-03-17T05:17:07Z) - Functional Scaling Laws in Kernel Regression: Loss Dynamics and Learning Rate Schedules [9.332823269318842]
スケーリング法則は、大きな言語モデルのトレーニングを理解し、導くための統一レンズとして登場した。
我々は任意のLSSの下で全損失軌跡を捕捉する機能スケーリング法を確立した。
データ制限と計算制限の両方で明示的なスケーリング関係を導出する。
論文 参考訳(メタデータ) (2025-09-23T16:05:16Z) - Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective [98.45690529036848]
Supervised Fine-Tuning (SFT) や Reinforcement Fine-Tuning (RFT) といったポストトレーニングアルゴリズムは、マルチモーダルな大規模言語モデルを下流タスクに適応するために広く使われている。
タスク適応には有効であるが、以前の知識に対する影響はいまだ不明である。
論文 参考訳(メタデータ) (2025-06-30T04:15:01Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - A Loss Curvature Perspective on Training Instability in Deep Learning [28.70491071044542]
学習力学における損失の曲率の影響を理解するため,多くの分類課題における損失ヘッセンの進化について検討した。
条件付けの観点から,学習率のウォームアップはバッチ正規化と同じくらいのトレーニング安定性を向上できることを示した。
論文 参考訳(メタデータ) (2021-10-08T20:25:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。