論文の概要: Faithful Bi-Directional Model Steering via Distribution Matching and Distributed Interchange Interventions
- arxiv url: http://arxiv.org/abs/2602.05234v1
- Date: Thu, 05 Feb 2026 02:51:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.730586
- Title: Faithful Bi-Directional Model Steering via Distribution Matching and Distributed Interchange Interventions
- Title(参考訳): 分布マッチングと分散インターチェンジによる二方向モデルステアリング
- Authors: Yuntai Bao, Xuhong Zhang, Jintao Chen, Ge Su, Yuxiang Cai, Hao Peng, Bing Sun, Haiqin Weng, Liu Yan, Jianwei Yin,
- Abstract要約: インターベンションベースのモデルステアリングは、プロンプトと微調整のための軽量で解釈可能な代替手段を提供する。
本研究では,分散アライメント探索の原理に基づいて,新しいステアリング手法である概念DASを提案する。
概念DASは必ずしも選好最適化法より優れるわけではないが、モデルスケールの増大により恩恵を受ける可能性があることを示す。
- 参考スコア(独自算出の注目度): 37.08071497197165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intervention-based model steering offers a lightweight and interpretable alternative to prompting and fine-tuning. However, by adapting strong optimization objectives from fine-tuning, current methods are susceptible to overfitting and often underperform, sometimes generating unnatural outputs. We hypothesize that this is because effective steering requires the faithful identification of internal model mechanisms, not the enforcement of external preferences. To this end, we build on the principles of distributed alignment search (DAS), the standard for causal variable localization, to propose a new steering method: Concept DAS (CDAS). While we adopt the core mechanism of DAS, distributed interchange intervention (DII), we introduce a novel distribution matching objective tailored for the steering task by aligning intervened output distributions with counterfactual distributions. CDAS differs from prior work in two main ways: first, it learns interventions via weak-supervised distribution matching rather than probability maximization; second, it uses DIIs that naturally enable bi-directional steering and allow steering factors to be derived from data, reducing the effort required for hyperparameter tuning and resulting in more faithful and stable control. On AxBench, a large-scale model steering benchmark, we show that CDAS does not always outperform preference-optimization methods but may benefit more from increased model scale. In two safety-related case studies, overriding refusal behaviors of safety-aligned models and neutralizing a chain-of-thought backdoor, CDAS achieves systematic steering while maintaining general model utility. These results indicate that CDAS is complementary to preference-optimization approaches and conditionally constitutes a robust approach to intervention-based model steering. Our code is available at https://github.com/colored-dye/concept_das.
- Abstract(参考訳): インターベンションベースのモデルステアリングは、プロンプトと微調整のための軽量で解釈可能な代替手段を提供する。
しかし、微調整から強い最適化目標を適用することで、現在の手法は過度に適合し、しばしば過度に性能が低下し、時には不自然な出力を生成する。
これは、効果的なステアリングは、外部の嗜好を強制するのではなく、内部モデルメカニズムの忠実な識別を必要とするためである、という仮説を立てる。
そこで我々は,因果変数ローカライゼーションの標準である分散アライメント探索(DAS)の原理に基づいて,新しいステアリング手法である概念DAS(CDAS)を提案する。
DASの中核的なメカニズムである分散インターチェンジ介入(DII)を採用する一方で、干渉出力分布と反実分布を整合させることにより、ステアリングタスクに適した新しい分布マッチング対象を導入する。
第一に、二方向のステアリングを自然に可能とし、データからステアリング要因を導き出すことができるDIIを使用し、ハイパーパラメータチューニングに必要な労力を削減し、より忠実で安定した制御をもたらす。
大規模モデルステアリングベンチマークであるAxBenchでは,CDASが必ずしも選好最適化法より優れるわけではないが,モデルスケールの増大により恩恵を受ける可能性が示唆された。
安全に関する2つのケーススタディにおいて、安全に整合したモデルの拒絶挙動をオーバーライドし、チェーン・オブ・オブ・フォア・バックドアを中和し、CDASは一般的なモデルユーティリティを維持しながら系統的なステアリングを実現する。
これらの結果から,CDASは嗜好最適化手法と相補的であり,条件付きモデルステアリングに対する堅牢なアプローチを構成することが示唆された。
私たちのコードはhttps://github.com/color-dye/concept_das.comで利用可能です。
関連論文リスト
- Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection [1.7802147489386628]
大規模言語モデル(LLM)は、有害な行動を引き起こす敵攻撃に対して脆弱なままである。
我々は2つの重要な革新を通じてこれらの制限に対処する選択ステアリングを提案する。
9つのモデルに対する実験により、選択ステアリングは以前の手法よりも5.5倍の攻撃成功率を達成することが示された。
論文 参考訳(メタデータ) (2026-01-27T08:56:25Z) - Model-Based Diffusion Sampling for Predictive Control in Offline Decision Making [48.998030470623384]
オフラインの意思決定は、さらなるインタラクションを伴わずに、固定データセットからの信頼性の高い振る舞いを必要とする。
i)タスク整列軌道を多様に生成するプランナー,(ii)システム力学との整合性を強制するダイナミクスモデル,(iii)タスク目標に整合した動作を選択するランサーモジュールからなる構成モデルに基づく拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-09T06:26:02Z) - DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving [65.7087560656003]
エンドツーエンドの自動運転のための生成拡散モデルは、しばしばモード崩壊に悩まされる。
強化学習を利用して低品質モードを制約し,優れた軌道探索を行うDiffusionDriveV2を提案する。
これにより、そのコアであるガウス混合モデル固有の多重モード性を維持しながら、全体的な出力品質が大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T17:29:52Z) - Dynamically Scaled Activation Steering [3.177576903071419]
動的にスケールされたアクティベーションステアリング(DSAS)を導入します。これはメソッドに依存しないステアリングフレームワークで、ステアリングの仕方を分離します。
DSASは、層と入力間の既存の操舵変換の強度を適応的に調節し、望ましくない振る舞いが検出された場合にのみ強く介入する。
論文 参考訳(メタデータ) (2025-12-03T10:50:15Z) - Preference-Based Alignment of Discrete Diffusion Models [14.874943508610857]
連続時間マルコフ連鎖として定式化された離散拡散モデルに対する直接選好最適化(DPO)の最初の適応である離散拡散DPO(D2-DPO)を導入する。
提案手法は, 参照分布に忠実さを保ちつつ, 選好データを用いて生成過程を直接微調整する新規な損失関数を導出する。
以上の結果から,D2-DPOは明示的な報酬モデルを必要としない制御された微調整が可能であり,強化学習によるアプローチの代替となることが示唆された。
論文 参考訳(メタデータ) (2025-03-11T11:07:35Z) - Controllable Motion Generation via Diffusion Modal Coupling [19.534234002173314]
マルチモーダルな事前分布を利用して拡散モデルの制御性を向上する新しいフレームワークを提案する。
Maze2D環境におけるデータセットとマルチタスク制御を用いた動作予測手法の評価を行った。
論文 参考訳(メタデータ) (2025-03-04T07:22:34Z) - Domain-Specific Risk Minimization for Out-of-Distribution Generalization [104.17683265084757]
まず、適応性ギャップを明示的に考慮した一般化境界を確立する。
本稿では,目標に対するより良い仮説の選択を導くための効果的なギャップ推定法を提案する。
もう1つの方法は、オンラインターゲットサンプルを用いてモデルパラメータを適応させることにより、ギャップを最小化することである。
論文 参考訳(メタデータ) (2022-08-18T06:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。