論文の概要: Fine-Tuning Without Forgetting via Loss-Adaptive Learning Rates
- arxiv url: http://arxiv.org/abs/2605.20005v1
- Date: Tue, 19 May 2026 15:36:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:09.490051
- Title: Fine-Tuning Without Forgetting via Loss-Adaptive Learning Rates
- Title(参考訳): 損失適応学習率を経由しないファインチューニング
- Authors: Parjanya Prajakta Prashant, Jiongli Zhu, Aldan Creo, Babak Salimi,
- Abstract要約: 新しいデータに微調整された大きな言語モデルは、タスクパフォーマンスを改善するが、事前トレーニング中に学んだ能力は低下する。
既存の方法は、高損失トークンやシーケンスを抑えるために微調整の目的を変更することで、これを緩和する。
FINCHは、標準微調整のタスク性能に適合しながら、平均93%の忘れを減らし、損失適応型学習率スケジュールである。
- 参考スコア(独自算出の注目度): 10.06646055401747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models on new data improves task performance but degrades capabilities learned during pretraining, a phenomenon known as catastrophic forgetting. Existing methods mitigate this by modifying the fine-tuning objective to suppress high-loss tokens or sequences, but these tokens are essential for learning new tasks, especially those with poor pretraining coverage. In such settings, hard tokens should still contribute to learning, so forgetting must be controlled without suppressing them. We identify a simple mechanism for doing so: per-step forgetting is bounded by the product of the learning rate and the square root of the current training loss. This suggests that high-loss batches are especially prone to inducing forgetting. Motivated by this observation, we introduce FINCH, a loss-adaptive learning-rate schedule that reduces the learning rate on high-loss batches and increases it as the model converges, while leaving the fine-tuning objective unchanged. Across knowledge acquisition, science, and low-resource language adaptation benchmarks, FINCH reduces forgetting by 93% on average while matching the task performance of standard fine-tuning. On Qwen3-4B knowledge acquisition, FINCH cuts TruthfulQA degradation by 5x and reverses HaluEval degradation, while better preserving confidence calibration. Overall, our results show that learning-rate schedules are an effective tool to shape model behavior during fine-tuning, beyond just target-task optimization.
- Abstract(参考訳): 新しいデータに対する微調整された大きな言語モデルは、タスクパフォーマンスを改善するが、事前トレーニング中に学んだ能力は低下する。
既存の方法は、高損失トークンやシーケンスを抑えるために微調整の目的を変更することでこれを緩和するが、これらのトークンは新しいタスク、特にトレーニング前のカバレッジの低いタスクを学ぶのに不可欠である。
このような設定では、ハードトークンは依然として学習に寄与するはずなので、それを抑えることなく忘れることをコントロールする必要がある。
ステップ毎の忘れ込みは、学習率の積と現在のトレーニング損失の平方根によって制限される。
これは、特に高損失のバッチは、忘れを誘発する傾向があることを示唆している。
この観察に動機づけられたFINCHは、損失適応型学習率スケジュールで、高損失バッチでの学習率を低減し、モデルが収束するにつれて増加させ、微調整の目的は変わらない。
知識獲得、科学、低リソース言語適応ベンチマーク全体にわたって、FINCHは標準微調整のタスクパフォーマンスに適合しながら、平均して93%の忘れを減らしている。
Qwen3-4Bの知識取得では、FINCHはTrathfulQAの劣化を5倍に減らし、HaluEvalの劣化を逆転させ、信頼性のキャリブレーションを向上する。
以上の結果から,学習速度スケジュールは,目標タスクの最適化だけでなく,微調整時のモデル行動形成に有効なツールであることが示唆された。
関連論文リスト
- Entropy-Guided Token Dropout: Training Autoregressive Language Models with Limited Domain Data [89.96277093034547]
本研究では,エントロピー誘導型トークンドロップアウト方式であるEntroDropを導入する。
本稿では,EntroDropが標準正規化ベースラインを一貫して上回り,拡張型マルチエポックトレーニングを通じて堅牢な性能を維持していることを示す。
論文 参考訳(メタデータ) (2025-12-29T12:35:51Z) - ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。
Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。
GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-05-26T12:23:26Z) - Quiet Feature Learning in Algorithmic Tasks [1.9249287163937978]
トランスフォーマーベースの言語モデルを10の基本的なアルゴリズムタスクで訓練する。
従来のパワールールスケーリングの傾向から逸脱した損失曲線における顕著な位相遷移を観察する。
モデルの内部表現を探索すると、タスクの損失が減少する前に静かな特徴が学習されることが分かる。
論文 参考訳(メタデータ) (2025-05-06T22:18:50Z) - Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。
適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。
我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文 参考訳(メタデータ) (2025-04-09T17:59:42Z) - Fine Tuning without Catastrophic Forgetting via Selective Low Rank Adaptation [13.084333776247743]
微調整は分散シフトに対する堅牢性を低下させ、アウト・オブ・ディストリビューション(OOD)のパフォーマンスに影響を及ぼす。
本稿では,低ランク適応(LoRA)ブロックを選択的に活性化するインジケータ関数を用いたパラメータ効率細調整(PEFT)手法を提案する。
有効微調整は5%のアクティブブロックで実現でき、効率が大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-01-26T03:22:22Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Stepping on the Edge: Curvature Aware Learning Rate Tuners [24.95412499942206]
曲率情報はロス・ヘッセンの最大の固有値であり、鋭さとして知られている。
最近の研究は、曲率情報が訓練中に複雑な力学を経ることを示した。
学習速度チューニングと曲率の閉ループフィードバック効果を解析する。
論文 参考訳(メタデータ) (2024-07-08T17:56:00Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。