論文の概要: Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting
- arxiv url: http://arxiv.org/abs/2601.02151v1
- Date: Mon, 05 Jan 2026 14:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.221574
- Title: Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting
- Title(参考訳): Entropy-Adaptive Fine-Tuning: フォーミングを緩和するための信頼の衝突を解決する
- Authors: Muxi Diao, Lele Yang, Wuxuan Gong, Yutong Zhang, Zhonghao Yan, Yufei Han, Kongming Liang, Weiran Xu, Zhanyu Ma,
- Abstract要約: 強化ファインチューニング(Reinforced Fine-Tuning, SFT)はドメイン適応の標準パラダイムである。
本稿では,この問題を解決するためにエントロピー適応ファインチューニング(EAFT)を提案する。
EAFTは標準SFTの下流性能と一貫して一致し、汎用能力の劣化を著しく軽減する。
- 参考スコア(独自算出の注目度): 44.23640219583819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised Fine-Tuning (SFT) is the standard paradigm for domain adaptation, yet it frequently incurs the cost of catastrophic forgetting. In sharp contrast, on-policy Reinforcement Learning (RL) effectively preserves general capabilities. We investigate this discrepancy and identify a fundamental distributional gap: while RL aligns with the model's internal belief, SFT forces the model to fit external supervision. This mismatch often manifests as "Confident Conflicts" tokens characterized by low probability but low entropy. In these instances, the model is highly confident in its own prediction but is forced to learn a divergent ground truth, triggering destructive gradient updates. To address this, we propose Entropy-Adaptive Fine-Tuning (EAFT). Unlike methods relying solely on prediction probability, EAFT utilizes token-level entropy as a gating mechanism to distinguish between epistemic uncertainty and knowledge conflict. This allows the model to learn from uncertain samples while suppressing gradients on conflicting data. Extensive experiments on Qwen and GLM series (ranging from 4B to 32B parameters) across mathematical, medical, and agentic domains confirm our hypothesis. EAFT consistently matches the downstream performance of standard SFT while significantly mitigating the degradation of general capabilities.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) はドメイン適応の標準パラダイムである。
対照的に、オンライン強化学習(RL)は、一般的な能力を効果的に維持する。
RLはモデルの内部の信念と一致しているが、SFTはモデルに外部の監督に適合するよう強制する。
このミスマッチはしばしば、確率は低いがエントロピーが低いのが特徴の「信頼の衝突」トークンとして現れる。
これらの例では、モデルは独自の予測に非常に自信を持っているが、異なる土台真実を学習せざるを得ず、破壊的な勾配更新を引き起こしている。
これを解決するために,Entropy-Adaptive Fine-Tuning (EAFT)を提案する。
予測確率のみに依存する手法とは異なり、EAFTは、認識の不確実性と知識の衝突を区別するゲーティングメカニズムとしてトークンレベルのエントロピーを利用する。
これにより、モデルは不確実なサンプルから学習し、矛盾するデータの勾配を抑えることができる。
Qwen および GLM シリーズ(4B から 32B のパラメータ)の数学的、医学的、エージェント的領域にわたる広範な実験により、我々の仮説が裏付けられる。
EAFTは標準SFTの下流性能と一貫して一致し、汎用能力の劣化を著しく軽減する。
関連論文リスト
- Causal Inference as Distribution Adaptation: Optimizing ATE Risk under Propensity Uncertainty [0.0]
我々は、分散シフトの下で、ATE推定をテキストドメイン適応問題として再フレーミングする。
結果モデルの共同学習を行うためのtextbfJoint Robust Estimator (JRE) を提案する。
論文 参考訳(メタデータ) (2025-12-19T21:40:46Z) - Entropy-Reservoir Bregman Projection: An Information-Geometric Unification of Model Collapse [3.533187668612022]
本稿では,これらの現象を統一する情報幾何学的枠組みであるEntropyReser Bregman Projection- ERBPを提案する。
我々の理論は崩壊に必要な条件、(ii)非言語エントロピーフロアを保証する十分な条件、(iii)サンプルサイズに依存する閉形式率をもたらす。
論文 参考訳(メタデータ) (2025-12-16T19:50:03Z) - BayesTTA: Continual-Temporal Test-Time Adaptation for Vision-Language Models via Gaussian Discriminant Analysis [41.09181390655176]
CLIPのような視覚言語モデル(VLM)は、強いゼロショット認識を実現するが、実世界のシナリオに共通する時空間的な分散シフトの下で大幅に劣化する。
テスト分布が時間とともに徐々に変化するCT-TTA(textitContinal-Temporal Test-Time Adaptation)として、この実践的問題を定式化する。
我々は、時間的に一貫した予測を実行し、視覚表現を動的に調整する、ベイズ適応フレームワークであるtextitBayesTTAを提案する。
論文 参考訳(メタデータ) (2025-07-11T14:02:54Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - COME: Test-time adaption by Conservatively Minimizing Entropy [45.689829178140634]
保守的に最小化されるエントロピー (COME) は従来のエントロピー (EM) の代替品である
COMEはモデル予測よりもディリクレ事前分布を特徴付けることによって、不確実性を明示的にモデル化する。
我々はCOMEが一般的なベンチマークで最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-12T09:20:06Z) - The Over-Certainty Phenomenon in Modern Test-Time Adaptation Algorithms [8.210473195536077]
本稿では,精度とキャリブレーションに対処する手法を提案する。
提案手法は,予測誤差と負ログ類似度の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-24T19:55:50Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。