論文の概要: SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs
- arxiv url: http://arxiv.org/abs/2509.20758v1
- Date: Thu, 25 Sep 2025 05:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.708271
- Title: SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs
- Title(参考訳): SFTは一般の能力を常に発揮していない: LLMにおけるドメイン特化ファインチューニングの再考
- Authors: Jiacheng Lin, Zhongruo Wang, Kun Qian, Tian Wang, Arvind Srinivasan, Hansi Zeng, Ruochen Jiao, Xie Zhou, Jiri Gesi, Dakuo Wang, Yufan Guo, Kai Zhong, Weiqi Zhang, Sujay Sanghavi, Changyou Chen, Hyokun Yun, Lihong Li,
- Abstract要約: Supervised Fine-Tuning (SFT) は、大規模言語モデル(LLM)を特殊タスクに適用するための一般的なアプローチである。
より少ない学習率で一般的な性能劣化を著しく軽減することができる。
- 参考スコア(独自算出の注目度): 53.77646961962239
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Supervised Fine-Tuning (SFT) on domain-specific datasets is a common approach to adapt Large Language Models (LLMs) to specialized tasks but is often believed to degrade their general capabilities. In this work, we revisit this trade-off and present both empirical and theoretical insights. First, we show that SFT does not always hurt: using a smaller learning rate can substantially mitigate general performance degradation while preserving comparable target-domain performance. We then provide a theoretical analysis that explains these phenomena and further motivates a new method, Token-Adaptive Loss Reweighting (TALR). Building on this, and recognizing that smaller learning rates alone do not fully eliminate general-performance degradation in all cases, we evaluate a range of strategies for reducing general capability loss, including L2 regularization, LoRA, model averaging, FLOW, and our proposed TALR. Experimental results demonstrate that while no method completely eliminates the trade-off, TALR consistently outperforms these baselines in balancing domain-specific gains and general capabilities. Finally, we distill our findings into practical guidelines for adapting LLMs to new domains: (i) using a small learning rate to achieve a favorable trade-off, and (ii) when a stronger balance is further desired, adopt TALR as an effective strategy.
- Abstract(参考訳): ドメイン固有データセット上での監視ファインチューニング(SFT)は、大規模言語モデル(LLM)を特定のタスクに適応させる一般的なアプローチであるが、一般的な能力を低下させると考えられていることが多い。
本研究では,このトレードオフを再考し,実証的および理論的知見を提示する。
まず、SFTが常に傷つくわけではないことを示し、より少ない学習率で、同等の目標ドメイン性能を維持しながら、一般的なパフォーマンス低下を大幅に軽減できることを示す。
次に,これらの現象を説明する理論的解析を行い,新たな手法であるToken-Adaptive Loss Reweighting(TALR)の動機付けを行う。
これに基づいて,L2正則化,LoRA,モデル平均化,FLOW,提案するTALRなど,すべてのケースにおいて,より小さな学習率だけでは汎用的な劣化を完全に排除できないことを認識し,汎用能力損失を低減するための戦略範囲を評価した。
実験結果から、メソッドが完全にトレードオフを除去することはないが、TALRはドメイン固有のゲインと一般的な能力のバランスをとる上で、これらのベースラインを一貫して上回ることを示した。
最後に,LLMを新たな領域に適用するための実践的ガイドラインとして,本研究の成果を抽出する。
(i)少ない学習率で有利なトレードオフを達成し、
(二)より強いバランスが望まれる場合には、TALRを効果的な戦略として採用する。
関連論文リスト
- Over-Alignment vs Over-Fitting: The Role of Feature Learning Strength in Generalization [8.58740389510812]
本研究では,ロジスティック損失を学習した2層ReLUネットにおける勾配流れの動的解析法を開発した。
過度に大きいFLSは、一般化を低下させる$textitover-alignment$現象を誘導する一方、過度に小さなFLSは$textitover-fitting$を誘導する。
論文 参考訳(メタデータ) (2026-01-31T17:43:02Z) - Data Distribution as a Lever for Guiding Optimizers Toward Superior Generalization in LLMs [60.68927774057402]
はじめに、単純さのバイアスが小さくなれば、より良い一般化がもたらされることを示す。
この知見に触発されて、訓練後のサンプルのアップサンプリングや強化によるトレーニングデータ分布がSBを減少させ、一般化の改善につながることを示す。
我々はPhi2-2.7B, Llama3.2-1B, Gemma3-1B-PT, Qwen3-0.6B-Base など複数の言語モデルの性能向上を図る。
論文 参考訳(メタデータ) (2026-01-31T07:40:36Z) - Learning Regularizers: Learning Optimizers that can Regularize [0.959678985347394]
学習者(LO)は、目的関数に明示的に適用することなく、従来の正規化手法の効果を内部化するように訓練できることを示す。
正規化されたLOは、テスト精度と一般化の点で、不正規化されたLOよりも一貫して優れている。
以上の結果から,LOは本来は正規化特性を学習し,従来は明示的最適損失正規化の必要性を補足することが示唆された。
論文 参考訳(メタデータ) (2025-10-10T03:23:28Z) - T-TAMER: Provably Taming Trade-offs in ML Serving [32.526955555483354]
我々は、この設定を多段階決定プロセスとして定式化する一般的なフレームワーク、T-Tamerを提案する。
我々の主な結果は、リコールは、証明可能なパフォーマンス保証を達成するのに必要であり、十分であることを示している。
その結果、リコールベースの戦略は効率のよいレイテンシトレードオフをもたらすことがわかった。
論文 参考訳(メタデータ) (2025-09-26T23:08:03Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - DGRO: Enhancing LLM Reasoning via Exploration-Exploitation Control and Reward Variance Management [18.953750405635393]
Decoupled Group Reward Optimization (DGRO) は、大規模言語モデル(LLM)推論のための一般的なRLアルゴリズムである。
我々はDGROが平均96.9%の精度でLogicデータセットの最先端性能を達成することを示し、数学的なベンチマークで強い一般化を示す。
論文 参考訳(メタデータ) (2025-05-19T10:44:49Z) - MoL for LLMs: Dual-Loss Optimization to Enhance Domain Expertise While Preserving General Capabilities [0.0]
本稿では,ドメイン固有および汎用コーパスの最適化目標を分離する新しいフレームワークであるMixture of Losses (MoL)を提案する。
具体的には、クロスエントロピー(CE)損失は知識獲得を保証するためにドメイン・コーパスに適用され、一方、Kulback-Leibler(KL)の分散は、一般的なコーパストレーニングとベースモデルの基本的な能力とを一致させる。
論文 参考訳(メタデータ) (2025-05-17T15:12:47Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - How to Alleviate Catastrophic Forgetting in LLMs Finetuning? Hierarchical Layer-Wise and Element-Wise Regularization [15.434072331989878]
大きな言語モデル(LLM)は、強力な汎用言語能力を示す。
これらのモデルをドメイン固有のタスクで微調整すると、大惨な忘れがちになり、そこではモデルが事前訓練中に得られた重要な知識を上書きまたは失う。
本研究では,微調整時の一般知識の保存に不可欠なモデルパラメータの要素的重要性を計算するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T13:54:53Z) - A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment
for Imbalanced Learning [129.63326990812234]
そこで本研究では,データ依存型コンダクタンス(Data-dependent contraction)と呼ばれる手法を提案する。
この技術に加えて、不均衡学習のための微粒な一般化境界が確立され、再重み付けとロジット調整の謎を明らかにするのに役立つ。
論文 参考訳(メタデータ) (2023-10-07T09:15:08Z) - Mitigating the Alignment Tax of RLHF [76.4300447532456]
強化学習(Reinforcement Learning)とヒューマンフィードバック(Human Feedback)の下のLLMの調整は、事前訓練された能力(アライメント税(アライメント税)としても知られる)を忘れてしまう可能性がある。
最小アライメント税を課しながらアライメント性能を最大化するためのモデル平均化を提案する。
我々は,OpenLLaMA-3B上でのRLHFアルゴリズムによるHMAの性能評価を行い,さらにMistral-7Bまで拡張した。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。