論文の概要: Learning from the Undesirable: Robust Adaptation of Language Models without Forgetting
- arxiv url: http://arxiv.org/abs/2511.13052v1
- Date: Mon, 17 Nov 2025 06:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.793799
- Title: Learning from the Undesirable: Robust Adaptation of Language Models without Forgetting
- Title(参考訳): 望ましくないものから学ぶ:忘れずに言語モデルのロバストな適応
- Authors: Yunhun Nam, Jaehyung Kim, Jongheon Jeong,
- Abstract要約: 言語モデル(LM)は、ダウンストリームタスクに特化するために、教師付き微調整(SFT)によって適応されることが多い。
微調整データに制限がある典型的なシナリオでは、SFTはLMを過度に適合させ、急激なパターンに依存する。
本研究では,SFT がデータ制限のある LM を微調整する際の問題を緩和するための,単純かつ効果的な正規化手法であるLfU を提案する。
- 参考スコア(独自算出の注目度): 18.680059467974825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) are often adapted through supervised fine-tuning (SFT) to specialize their capabilities for downstream tasks. However, in typical scenarios where the fine-tuning data is limited, e.g., compared to pre-training, SFT can lead LMs to overfit, causing them to rely on spurious patterns within the target task or to compromise other broadly useful capabilities as a side effect of narrow specialization. In this paper, we propose Learning-from-the-Undesirable (LfU), a simple yet effective regularization scheme for SFT to mitigate overfitting issues when fine-tuning LMs with limited data. Specifically, we aim to regularize the fine-tuning process to favor solutions that are resilient to "undesirable" model updates, e.g., gradient ascent steps that steer the model toward undesirable behaviors. To this end, we propose a novel form of consistency regularization that directly aligns internal representations of the model with those after an undesirable update. By leveraging representation-level data augmentation through undesirable updates, LfU effectively promotes generalization under limited data. Our experiments on diverse LM downstream tasks show that LfU serves as an effective prior that enhances adaptability while preserving pretrained knowledge. For example, our LM from LfU achieves a 16.8% average improvement on math tasks compared to vanilla SFT on the same dataset, where the latter even leads to degraded performance on those tasks. Furthermore, LfU exhibits improved robustness to prompt variations, e.g., yielding a 92.1% lower standard deviation in output performances compared to SFT, highlighting its versatile effects.
- Abstract(参考訳): 言語モデル(LM)は、ダウンストリームタスクに特化するために、教師付き微調整(SFT)によって適応されることが多い。
しかし、例えば事前訓練と比較して微調整データが制限されている典型的なシナリオでは、SFTはLMを過度に適合させ、ターゲットタスク内の急激なパターンに依存するか、あるいは狭い特殊化の副作用として他の広範囲に有用な機能を妥協させる。
本稿では,制限されたデータで微調整されたLMにおいて,過度に適合する問題を緩和するために,SFTの簡易かつ効果的な正規化手法であるLfUを提案する。
具体的には、「望ましくない」モデル更新に対して回復力のあるソリューション、例えば、望ましくない振る舞いに向けてモデルを舵取りする勾配上昇ステップを支持するために、微調整プロセスを標準化することを目指している。
この目的のために,不必要な更新後にモデルの内部表現と直接整合する新しい整合正則化方式を提案する。
望ましくない更新を通じて表現レベルのデータ拡張を活用することにより、LfUは限られたデータの下での一般化を効果的に推進する。
多様なLM下流タスクに対する実験により,LfUは事前知識を保ちつつ適応性を向上する有効な先行機能であることが示された。
例えば、LfUのLMは、同じデータセット上のバニラSFTと比較して16.8%の平均的な数学タスクの改善を実現しています。
さらに、LfUは改良されたロバスト性を示し、例えば、SFTと比較して出力性能の標準偏差が92.1%低下し、その汎用的な効果を強調している。
関連論文リスト
- Learn More, Forget Less: A Gradient-Aware Data Selection Approach for LLM [51.21051698747157]
大規模言語モデル(LLM)の教師付き微調整のための自己適応型勾配対応データ選択手法(GrADS)を提案する。
具体的には、勾配の大きさと統計的分布を利用した自己指導型基準を設計し、モデルの学習プロセスに最も寄与する例を優先する。
GrADSは、医学、法学、金融など様々な分野にまたがる様々なLLMの広範な実験を通じて、大幅な効率性と費用対効果を示してきた。
論文 参考訳(メタデータ) (2025-11-07T08:34:50Z) - Data Efficient Adaptation in Large Language Models via Continuous Low-Rank Fine-Tuning [34.343514432589586]
本稿では,ローランド適応(LoRA)と連続的な微調整戦略を統合する新しいフレームワークであるtextbfを提案する。
15の多様なデータセットの実験は、DEALがベースラインメソッドを一貫して上回っていることを示している。
これらの結果は,大規模言語モデルにおける継続的適応に向けた我々のアプローチの可能性を示している。
論文 参考訳(メタデータ) (2025-09-23T12:55:57Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Improved Supervised Fine-Tuning for Large Language Models to Mitigate Catastrophic Forgetting [1.5595148909011116]
Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) の命令追従能力を高めるための重要なステップである。
SFTはしばしば、破滅的忘れという現象として、モデルの一般的な能力の低下につながる。
本稿では,従来のSFTデータへのアクセスを必要とせずに,破滅的な忘れを効果的に軽減する,新しい費用対効果のSFT手法を提案する。
論文 参考訳(メタデータ) (2025-06-11T06:23:50Z) - Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data [73.04828796123581]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) を整列するための重要なステップとなっている。
本稿では,SFTの改良版であるDFT(Driminative Fine-Tuning)を紹介する。
i) 入力された全ての可能な出力のうち、解答の判別可能性を明示的にモデル化することにより、微調整LDMの判別確率フレームワーク、(ii) この判別可能性を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範な実験を含む。
論文 参考訳(メタデータ) (2025-02-25T22:38:55Z) - Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。
直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。
PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文 参考訳(メタデータ) (2024-12-17T12:49:14Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。