論文の概要: D-STEER - Preference Alignment Techniques Learn to Behave, not to Believe -- Beneath the Surface, DPO as Steering Vector Perturbation in Activation Space
- arxiv url: http://arxiv.org/abs/2512.11838v1
- Date: Wed, 03 Dec 2025 14:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.711633
- Title: D-STEER - Preference Alignment Techniques Learn to Behave, not to Believe -- Beneath the Surface, DPO as Steering Vector Perturbation in Activation Space
- Title(参考訳): D-STEER - 振動空間におけるステアリングベクトル摂動としてのDPO
- Authors: Samarth Raina, Saksham Aggarwal, Aman Chadha, Vinija Jain, Amitava Das,
- Abstract要約: DPO(Direct Preference Optimization)は、大規模言語モデルの整合化のための標準レシピとなっている。
本稿は、DPOがモデル内部の信念を書き換えるのではなく、少数の選好方向に沿ってアクティベーションを育む低ランクのステアリング機構として機能すると主張している。
- 参考スコア(独自算出の注目度): 20.00125473464331
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Direct Preference Optimization (DPO) has become a standard recipe for aligning large language models, yet it is still unclear what kind of change it actually induces inside the network. This paper argues that DPO does not rewrite a models internal beliefs; instead, it acts as a low rank steering mechanism that nudges activations along a small number of preference directions. Using a simple derivation, we show that the DPO gradient depends only on the difference between the logit embeddings of preferred and dispreferred completions, implying a first order shift in the final hidden representation rather than a deep restructuring of semantics. We then extract an empirical steering vector from a DPO tuned model and demonstrate that adding this vector to base activations reproduces most of the aligned behavior, while subtracting it nearly restores the original model. Finally, spectral analyses reveal rank-one dominance and entropy collapse in upper layers, indicating that alignment is funneled through a narrow subspace. Taken together, these results support a behavioral illusion view of DPO: it teaches models how to act aligned, not what to believe.
- Abstract(参考訳): DPO(Direct Preference Optimization)は、大規模な言語モデルを調整するための標準的なレシピとなっているが、ネットワーク内で実際にどのような変更が引き起こされるのかは不明だ。
本稿は、DPOがモデル内部の信念を書き換えるのではなく、少数の選好方向に沿ってアクティベーションを育む低ランクのステアリング機構として機能すると主張している。
単純な導出法を用いて、DPO勾配は好みの完備化のロジト埋め込みと非推奨の完備化の差にのみ依存し、意味論の深い再構成ではなく、最後の隠蔽表現の1次シフトを意味することを示す。
次に、DPOチューニングモデルから経験的ステアリングベクトルを抽出し、このベクトルをベースアクティベーションに追加すると、ほとんどの整合挙動が再現され、元のモデルはほぼ復元されることを示した。
最後に、スペクトル分析により、上層層におけるランク1の優位性とエントロピーの崩壊が明らかとなり、アライメントが狭い部分空間を通り抜けていることが示されている。
まとめると、これらの結果はDPOの行動錯視的な見方を支持します。
関連論文リスト
- Understanding the Effects of Domain Finetuning on LLMs [60.874016669351874]
大規模医療言語モデルにおけるドメイン固有微調整に関する最初の体系的研究について述べる。
解析の結果,微調整は表現部分空間の小さな部分集合のみを修飾することがわかった。
サブ空間におけるこれらの変化を解釈するために、微調整によって引き起こされる方向パラメータシフトを明示的にキャプチャするチューニングベクトルを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:14:06Z) - Why Alignment Must Precede Distillation: A Minimal Working Explanation [50.784080714897776]
標準のKD -> Alignワークフローは、稀だが望ましい振る舞いを整列するためにモデルの能力を低下させる。
蒸留に先立って,まず高リコール基準でアライメントを行わなければならないことを示す。
論文 参考訳(メタデータ) (2025-09-28T06:12:19Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Reasoning-Finetuning Repurposes Latent Representations in Base Models [1.3286418032136589]
微調整を推論することによって引き起こされる創発的な振る舞いであるバックトラックは、モデルの強化能力を推論する上で重要なメカニズムであることが示されている。
バックトラックの出現は,すでにベースモデルアクティベーションに存在している再利用方向によって部分的に駆動されていることを示す。
論文 参考訳(メタデータ) (2025-07-16T21:21:03Z) - Multi-Preference Lambda-weighted Listwise DPO for Small-Scale Model Alignment [5.276657230880984]
大規模言語モデル(LLM)は、幅広い言語タスクに対して強力な一般化を示すが、しばしば人間の好みに反する出力を生成する。
直接最適化選好(DPO)は、二項選好対に対する分類タスクとしてアライメントを扱い、プロセスを単純化する。
我々は、より詳細な人間のフィードバックからモデルを学習できるマルチパラメータLambda-weighted Listwise DPOを提案する。
本手法は, 実世界の展開に適した効率, 制御可能, きめ細かな適応を実現しつつ, 標準DPOのアライメント性能を常に向上させる。
論文 参考訳(メタデータ) (2025-06-24T16:47:17Z) - DenseDPO: Fine-Grained Temporal Preference Optimization for Video Diffusion Models [92.36630583208647]
本稿では,3つのコントリビューションによって欠点に対処するDenseDPOを紹介する。
まず,地上の真理ビデオの破損したコピーをデノベートすることで,DPO用のビデオペアを作成する。
第二に、得られた時間的アライメントを利用して、クリップ全体よりも短いセグメントにラベルを付けることで、より密でより正確な学習信号が得られる。
論文 参考訳(メタデータ) (2025-06-04T03:06:08Z) - The Feature Speed Formula: a flexible approach to scale hyper-parameters of deep neural networks [27.666992667126053]
機能更新と後方パスの間の角度$theta_ell$を予測し、制御するための重要な概念を紹介します。
1つのGDステップ後の機能更新の規模は、任意のトレーニング時間において、単純で一般的なエンフェチュア・スピード・フォーミュラで表現できることが示される。
論文 参考訳(メタデータ) (2023-11-30T17:19:18Z) - Simple and Effective Prevention of Mode Collapse in Deep One-Class
Classification [93.2334223970488]
深部SVDDにおける超球崩壊を防止するための2つの正則化器を提案する。
第1の正則化器は、標準のクロスエントロピー損失によるランダムノイズの注入に基づいている。
第2の正規化器は、小さすぎるとミニバッチ分散をペナライズする。
論文 参考訳(メタデータ) (2020-01-24T03:44:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。