論文の概要: Crafting Reversible SFT Behaviors in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.06632v1
- Date: Thu, 07 May 2026 17:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.055733
- Title: Crafting Reversible SFT Behaviors in Large Language Models
- Title(参考訳): 大規模言語モデルにおける可逆SFT動作の製作
- Authors: Yuping Lin, Pengfei He, Yue Xing, Yingqian Cui, Jiayuan Ding, Subhabrata Mukherjee, Hui Liu, Zhen Xiang,
- Abstract要約: Supervised Fine-tuning (SFT)は、大きな言語モデルで新しい振る舞いを誘導するが、モデル内でこれらの振る舞いをどのように分散するかに関して構造的な制約は課さない。
我々は、SFTによって引き起こされる振る舞いは、故意に、機械的に必要なサブネットワークに圧縮され、同時に、重量修正なしで推論時に制御可能であるか?
我々は、明示的なユーティリティ予算の下でルーティングマスクとモデルウェイトを共同で最適化することで、そのようなキャリアを構築するロス制約デュアルディフレクション(LCDD)*と、抽出されたキャリアチャネル上でのアクティベーションマッチングによって最適化されたソフトプロンプトである**SFT-Eraser**を提案する。
- 参考スコア(独自算出の注目度): 27.69904100536706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) induces new behaviors in large language models, yet imposes no structural constraint on how these behaviors are distributed within the model. Existing behavior interpretation methods, such as circuit attribution approaches, identify sparse subnetworks correlated with SFT-induced behaviors post-hoc. However, such correlations do not imply *causal necessity*, limiting the ability to selectively control SFT-induced behaviors at inference time. We pursue an alternative by asking: can an SFT-induced behavior be deliberately compressed into a sparse, mechanistically necessary subnetwork, termed a *carrier*, while remaining controllable at inference time without weight modification? We propose (a) **Loss-Constrained Dual Descent (LCDD)**, which constructs such carriers by jointly optimizing routing masks and model weights under an explicit utility budget, and (b) **SFT-Eraser**, a soft prompt optimized via activation matching on extracted carrier channels, to reverse the SFT-induced behavior. Across safety, fixed-response, and style behaviors on multiple model families, LCDD yields sparse carriers that preserve target behaviors while enabling strong reversion when triggered by SFT-Eraser. Ablations further establish that the sparse structure is the key precondition for reversal: the same trigger optimization fails on standard SFT models, confirming that structure rather than trigger design is the operative factor. These results provide direct evidence that the learned carriers are causally necessary for the behaviors, pointing to a new direction for systematically localizing and selectively suppressing SFT-induced behaviors in deployed models.
- Abstract(参考訳): Supervised Fine-tuning (SFT)は、大きな言語モデルで新しい振る舞いを誘導するが、モデル内でこれらの振る舞いをどのように分散するかに関して構造的な制約は課さない。
既存の動作解釈手法、例えば回路属性アプローチは、SFTによるポストホックの動作と相関したスパースサブネットを同定する。
しかし、そのような相関関係は*因果的必要*を含まないため、推論時にSFTによって引き起こされる振る舞いを選択的に制御する能力を制限する。
SFTによって引き起こされる振る舞いは、故意にスパースで機械的に必要となるサブネットワークに圧縮され、*キャリア*と呼ばれるが、ウェイト修正なしで推論時に制御可能であるか?
特集にあたって
(a)**Loss-Constrained Dual Descent (LCDD)* 明確な実用予算の下でルーティングマスクとモデルウェイトを共同最適化してそのようなキャリアを構築する。
(b)**SFT-Eraser*は、抽出されたキャリアチャネル上でのアクティベーションマッチングによって最適化されたソフトプロンプトであり、SFTによる振る舞いを逆転させる。
LCDDは、安全、固定応答、および複数のモデルファミリ上のスタイルの振舞いにわたって、SFT-Eraserによってトリガされた場合の強い逆戻りを可能にしながら、標的の振舞いを保ちながらスパースキャリヤを産み出す。
同じトリガ最適化は標準のSFTモデルでは失敗し、トリガ設計よりも構造が操作因子であることを確認する。
これらの結果は、学習キャリアが行動に因果的に必要であることを示す直接的な証拠であり、デプロイされたモデルにおけるSFT誘発行動の系統的局所化と選択的抑制のための新しい方向を指し示している。
関連論文リスト
- GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification [37.24414986596345]
Group Fine-Tuning (GFT) は、大規模言語モデルのための統合後トレーニングフレームワークである。
GFTは一貫してSFTベースの手法を超越し、その後のRLトレーニングとよりスムーズな統合を図っている。
論文 参考訳(メタデータ) (2026-04-15T15:49:58Z) - Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models [102.20309135516186]
クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供する。
言語モデル微調整のための特徴マッチング手法を提案する。
この目的を効率的に最適化するために,エネルギーベースファインチューニングを提案する。
論文 参考訳(メタデータ) (2026-03-12T17:57:50Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler [54.10960908347221]
我々は、学習可能な密度から条件付きサンプリングとして潜在思考探索をモデル化し、このアイデアをガウス思想サンプリング(GTS)としてインスタンス化する。
GTSは、連続的推論状態における文脈依存摂動分布を予測し、バックボーンを凍結させながらGRPOスタイルのポリシー最適化を訓練する。
論文 参考訳(メタデータ) (2026-02-15T09:57:47Z) - Gradients Must Earn Their Influence: Unifying SFT with Generalized Entropic Objectives [22.29000001610794]
Supervised Fine-Tuning (SFT) の標準的な負の対数構造は、均一なトークンレベルの重み付けを適用する。
この剛性は2重の障害モードを生成する: (i)低確率目標を過度に強調することは、ノイズの監督の勾配を増幅し、頑健な事前を妨害し、 (ii)一様重み付けは、モデルが既に自信を持っているときに弱いシャープニングを与える。
既存の方法は可塑性の解決に失敗し、不安定なジレンマがしばしば有害なジレンマとともに必要な学習信号を抑圧する。
パラメータ自由度を変調する動的エントロピーファインチューニング(DEFT)を導入する。
論文 参考訳(メタデータ) (2026-02-11T22:56:43Z) - Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting [44.23640219583819]
強化ファインチューニング(Reinforced Fine-Tuning, SFT)はドメイン適応の標準パラダイムである。
本稿では,この問題を解決するためにエントロピー適応ファインチューニング(EAFT)を提案する。
EAFTは標準SFTの下流性能と一貫して一致し、汎用能力の劣化を著しく軽減する。
論文 参考訳(メタデータ) (2026-01-05T14:28:17Z) - Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - UFT: Unifying Supervised and Reinforcement Fine-Tuning [27.786964046329455]
我々は、SFTとRFTを単一の統合プロセスに統合する新しいポストトレーニングパラダイムであるUnified Fine-Tuning(UFT)を提案する。
UFTは、インフォメーション・インフォメーション・シグナルを取り入れつつ、効果的に解を探索することを可能にする。
理論的には、UFTがRFT固有の指数的サンプル複雑性のボトルネックを破ることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:53:57Z) - Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data [73.04828796123581]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) を整列するための重要なステップとなっている。
本稿では,SFTの改良版であるDFT(Driminative Fine-Tuning)を紹介する。
i) 入力された全ての可能な出力のうち、解答の判別可能性を明示的にモデル化することにより、微調整LDMの判別確率フレームワーク、(ii) この判別可能性を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範な実験を含む。
論文 参考訳(メタデータ) (2025-02-25T22:38:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。