論文の概要: Gradients Must Earn Their Influence: Unifying SFT with Generalized Entropic Objectives
- arxiv url: http://arxiv.org/abs/2602.11424v1
- Date: Wed, 11 Feb 2026 22:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.567374
- Title: Gradients Must Earn Their Influence: Unifying SFT with Generalized Entropic Objectives
- Title(参考訳): SFTと一般化したエントロピー対象の統一
- Authors: Zecheng Wang, Deyuan Liu, Chunshan Li, Yupeng Zhang, Zhengyun Zhao, Dianhui Chu, Bingning Wang, Dianbo Sui,
- Abstract要約: Supervised Fine-Tuning (SFT) の標準的な負の対数構造は、均一なトークンレベルの重み付けを適用する。
この剛性は2重の障害モードを生成する: (i)低確率目標を過度に強調することは、ノイズの監督の勾配を増幅し、頑健な事前を妨害し、 (ii)一様重み付けは、モデルが既に自信を持っているときに弱いシャープニングを与える。
既存の方法は可塑性の解決に失敗し、不安定なジレンマがしばしば有害なジレンマとともに必要な学習信号を抑圧する。
パラメータ自由度を変調する動的エントロピーファインチューニング(DEFT)を導入する。
- 参考スコア(独自算出の注目度): 22.29000001610794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard negative log-likelihood (NLL) for Supervised Fine-Tuning (SFT) applies uniform token-level weighting. This rigidity creates a two-fold failure mode: (i) overemphasizing low-probability targets can amplify gradients on noisy supervision and disrupt robust priors, and (ii) uniform weighting provides weak sharpening when the model is already confident. Existing methods fail to resolve the resulting plasticity--stability dilemma, often suppressing necessary learning signals alongside harmful ones. To address this issue, we unify token-level SFT objectives within a generalized deformed-log family and expose a universal gate $\times$ error gradient structure, where the gate controls how much the model trusts its current prediction. By employing the Cayley transform, we map the model's continuously evolving uncertainty onto a continuous focus trajectory, which enables seamless interpolation between scenarios involving uncertain novel concepts and those involving well-established knowledge. We then introduce Dynamic Entropy Fine-Tuning (DEFT), a parameter-free objective that modulates the trust gate using distribution concentration (Rényi-2 entropy) as a practical proxy for the model's predictive state. Extensive experiments and analyses demonstrate that DEFT achieves a better balance between exploration and exploitation, leading to improved overall performance.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) の標準負対数法 (NLL) は均一なトークンレベルの重み付けを適用する。
この剛性は2倍の障害モードを生み出します。
(i)低確率目標の過度強調は、騒音監視の勾配を増幅し、頑健な事前を妨害し得る。
(二)一様重み付けは、モデルが既に自信があるときに弱いシャープニングを与える。
既存の方法は可塑性の解決に失敗し、不安定なジレンマがしばしば有害なジレンマと共に必要な学習信号を抑圧する。
この問題に対処するため、一般化されたデフォルメログファミリー内でトークンレベルのSFT目標を統一し、共通ゲート$\times$エラー勾配構造を公開し、モデルが現在の予測をどれだけ信頼しているかを制御する。
ケイリー変換を用いることで、モデルの継続的な進化する不確実性を連続的な焦点軌道にマッピングし、不確実な新しい概念と確立された知識を含むシナリオ間のシームレスな補間を可能にする。
次に、モデル予測状態の実用的なプロキシとして、分布集中(レニー2エントロピー)を用いて信頼ゲートを変調するパラメータフリーな目的である動的エントロピーファインタニング(DEFT)を導入する。
大規模な実験と分析により、DEFTは探索と搾取のバランスが良くなり、全体的な性能が向上することが示された。
関連論文リスト
- GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler [54.10960908347221]
我々は、学習可能な密度から条件付きサンプリングとして潜在思考探索をモデル化し、このアイデアをガウス思想サンプリング(GTS)としてインスタンス化する。
GTSは、連続的推論状態における文脈依存摂動分布を予測し、バックボーンを凍結させながらGRPOスタイルのポリシー最適化を訓練する。
論文 参考訳(メタデータ) (2026-02-15T09:57:47Z) - Binary Flow Matching: Prediction-Loss Space Alignment for Robust Learning [23.616336786063552]
フローマッチングは、生成モデリングの強力なフレームワークとして登場した。
速度に基づく目的と結合した場合に発生する潜在構造ミスマッチを同定する。
信号空間に対する目的の再調整が特異重み付けを排除していることを示す。
論文 参考訳(メタデータ) (2026-02-11T02:02:30Z) - Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting [44.23640219583819]
強化ファインチューニング(Reinforced Fine-Tuning, SFT)はドメイン適応の標準パラダイムである。
本稿では,この問題を解決するためにエントロピー適応ファインチューニング(EAFT)を提案する。
EAFTは標準SFTの下流性能と一貫して一致し、汎用能力の劣化を著しく軽減する。
論文 参考訳(メタデータ) (2026-01-05T14:28:17Z) - Closed-Loop Transformers: Autoregressive Modeling as Iterative Latent Equilibrium [0.6820746164515952]
閉ループ予測の原理を導入し、自己整合平衡に達するまで、モデルが反復的に潜在表現を洗練することを要求する。
この原理をEquilibrium Transformerとしてインスタンス化し,標準トランス層をEquilibrium Refinement Moduleで拡張する。
バイナリパリティタスクに関する予備実験では、チャレンジシーケンスの平均改善率は+3.28%で、標準トランスフォーマーがランダムなパフォーマンスに近づくと+8.07%に達する。
論文 参考訳(メタデータ) (2025-11-26T20:02:59Z) - SynCast: Synergizing Contradictions in Precipitation Nowcasting via Diffusion Sequential Preference Optimization [62.958457694151384]
本研究では,大規模な言語モデルにおける人的フィードバックからの強化学習の成功を動機として,降水量の最適化を初めて導入する。
第一段階では、フレームワークはFARを減らすことに焦点を当て、誤報を効果的に抑えるためにモデルを訓練する。
論文 参考訳(メタデータ) (2025-10-22T16:11:22Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - A Unified Noise-Curvature View of Loss of Trainability [8.602734307457387]
継続的学習におけるトレーニング容易性(LoT)の喪失は、タスクが進化するにつれて、ステップが改善されなくなります。
バッチサイズ対応勾配雑音境界と曲率ボラティリティ制御境界の2つの相補的基準を導入する。
このしきい値を用いることで、各レイヤを安全な限界以下に維持する、単純なレイヤごとのスケジューラを構築します。
論文 参考訳(メタデータ) (2025-09-24T02:11:13Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。