論文の概要: SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs
- arxiv url: http://arxiv.org/abs/2509.20758v1
- Date: Thu, 25 Sep 2025 05:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.708271
- Title: SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs
- Title(参考訳): SFTは一般の能力を常に発揮していない: LLMにおけるドメイン特化ファインチューニングの再考
- Authors: Jiacheng Lin, Zhongruo Wang, Kun Qian, Tian Wang, Arvind Srinivasan, Hansi Zeng, Ruochen Jiao, Xie Zhou, Jiri Gesi, Dakuo Wang, Yufan Guo, Kai Zhong, Weiqi Zhang, Sujay Sanghavi, Changyou Chen, Hyokun Yun, Lihong Li,
- Abstract要約: Supervised Fine-Tuning (SFT) は、大規模言語モデル(LLM)を特殊タスクに適用するための一般的なアプローチである。
より少ない学習率で一般的な性能劣化を著しく軽減することができる。
- 参考スコア(独自算出の注目度): 53.77646961962239
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Supervised Fine-Tuning (SFT) on domain-specific datasets is a common approach to adapt Large Language Models (LLMs) to specialized tasks but is often believed to degrade their general capabilities. In this work, we revisit this trade-off and present both empirical and theoretical insights. First, we show that SFT does not always hurt: using a smaller learning rate can substantially mitigate general performance degradation while preserving comparable target-domain performance. We then provide a theoretical analysis that explains these phenomena and further motivates a new method, Token-Adaptive Loss Reweighting (TALR). Building on this, and recognizing that smaller learning rates alone do not fully eliminate general-performance degradation in all cases, we evaluate a range of strategies for reducing general capability loss, including L2 regularization, LoRA, model averaging, FLOW, and our proposed TALR. Experimental results demonstrate that while no method completely eliminates the trade-off, TALR consistently outperforms these baselines in balancing domain-specific gains and general capabilities. Finally, we distill our findings into practical guidelines for adapting LLMs to new domains: (i) using a small learning rate to achieve a favorable trade-off, and (ii) when a stronger balance is further desired, adopt TALR as an effective strategy.
- Abstract(参考訳): ドメイン固有データセット上での監視ファインチューニング(SFT)は、大規模言語モデル(LLM)を特定のタスクに適応させる一般的なアプローチであるが、一般的な能力を低下させると考えられていることが多い。
本研究では,このトレードオフを再考し,実証的および理論的知見を提示する。
まず、SFTが常に傷つくわけではないことを示し、より少ない学習率で、同等の目標ドメイン性能を維持しながら、一般的なパフォーマンス低下を大幅に軽減できることを示す。
次に,これらの現象を説明する理論的解析を行い,新たな手法であるToken-Adaptive Loss Reweighting(TALR)の動機付けを行う。
これに基づいて,L2正則化,LoRA,モデル平均化,FLOW,提案するTALRなど,すべてのケースにおいて,より小さな学習率だけでは汎用的な劣化を完全に排除できないことを認識し,汎用能力損失を低減するための戦略範囲を評価した。
実験結果から、メソッドが完全にトレードオフを除去することはないが、TALRはドメイン固有のゲインと一般的な能力のバランスをとる上で、これらのベースラインを一貫して上回ることを示した。
最後に,LLMを新たな領域に適用するための実践的ガイドラインとして,本研究の成果を抽出する。
(i)少ない学習率で有利なトレードオフを達成し、
(二)より強いバランスが望まれる場合には、TALRを効果的な戦略として採用する。
関連論文リスト
- NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - MoL for LLMs: Dual-Loss Optimization to Enhance Domain Expertise While Preserving General Capabilities [0.0]
本稿では,ドメイン固有および汎用コーパスの最適化目標を分離する新しいフレームワークであるMixture of Losses (MoL)を提案する。
具体的には、クロスエントロピー(CE)損失は知識獲得を保証するためにドメイン・コーパスに適用され、一方、Kulback-Leibler(KL)の分散は、一般的なコーパストレーニングとベースモデルの基本的な能力とを一致させる。
論文 参考訳(メタデータ) (2025-05-17T15:12:47Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - How to Alleviate Catastrophic Forgetting in LLMs Finetuning? Hierarchical Layer-Wise and Element-Wise Regularization [15.434072331989878]
大きな言語モデル(LLM)は、強力な汎用言語能力を示す。
これらのモデルをドメイン固有のタスクで微調整すると、大惨な忘れがちになり、そこではモデルが事前訓練中に得られた重要な知識を上書きまたは失う。
本研究では,微調整時の一般知識の保存に不可欠なモデルパラメータの要素的重要性を計算するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T13:54:53Z) - A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment
for Imbalanced Learning [129.63326990812234]
そこで本研究では,データ依存型コンダクタンス(Data-dependent contraction)と呼ばれる手法を提案する。
この技術に加えて、不均衡学習のための微粒な一般化境界が確立され、再重み付けとロジット調整の謎を明らかにするのに役立つ。
論文 参考訳(メタデータ) (2023-10-07T09:15:08Z) - Mitigating the Alignment Tax of RLHF [76.4300447532456]
強化学習(Reinforcement Learning)とヒューマンフィードバック(Human Feedback)の下のLLMの調整は、事前訓練された能力(アライメント税(アライメント税)としても知られる)を忘れてしまう可能性がある。
最小アライメント税を課しながらアライメント性能を最大化するためのモデル平均化を提案する。
我々は,OpenLLaMA-3B上でのRLHFアルゴリズムによるHMAの性能評価を行い,さらにMistral-7Bまで拡張した。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。