論文の概要: Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics
- arxiv url: http://arxiv.org/abs/2602.02343v2
- Date: Wed, 04 Feb 2026 12:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.712829
- Title: Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics
- Title(参考訳): なぜステアリングが機能するのか:言語モデルパラメータダイナミクスの統一的な視点に向けて
- Authors: Ziwen Xu, Chenyan Wu, Hengyu Sun, Haiwen Hong, Mengru Wang, Yunzhi Yao, Longtao Huang, Hui Xue, Shumin Deng, Zhixuan Chu, Huajun Chen, Ningyu Zhang,
- Abstract要約: 局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
- 参考スコア(独自算出の注目度): 81.80010043113445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Methods for controlling large language models (LLMs), including local weight fine-tuning, LoRA-based adaptation, and activation-based interventions, are often studied in isolation, obscuring their connections and making comparison difficult. In this work, we present a unified view that frames these interventions as dynamic weight updates induced by a control signal, placing them within a single conceptual framework. Building on this view, we propose a unified preference-utility analysis that separates control effects into preference, defined as the tendency toward a target concept, and utility, defined as coherent and task-valid generation, and measures both on a shared log-odds scale using polarity-paired contrastive examples. Across methods, we observe a consistent trade-off between preference and utility: stronger control increases preference while predictably reducing utility. We further explain this behavior through an activation manifold perspective, in which control shifts representations along target-concept directions to enhance preference, while utility declines primarily when interventions push representations off the model's valid-generation manifold. Finally, we introduce a new steering approach SPLIT guided by this analysis that improves preference while better preserving utility. Code is available at https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.
- Abstract(参考訳): 局所的な重み付け、LoRAに基づく適応、アクティベーションに基づく介入を含む大規模言語モデル(LLM)を制御する手法は、しばしば独立して研究され、それらの関係を隠蔽し、比較を困難にしている。
本研究では,これらの介入を制御信号によって誘導される動的ウェイト更新としてフレーム化して,単一の概念的枠組みに配置する,統一的な視点を示す。
この観点から、制御効果を目的概念の傾向として定義した選好と、コヒーレントおよびタスク価生成として定義されたユーティリティに分離する統一された選好ユーティリティ分析を提案し、極性対向型コントラストを用いた共有ログオードスケールで測定する。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
さらに、この振る舞いをアクティベーション多様体の観点から説明し、制御が対象概念の方向に沿って表現をシフトして嗜好を高める一方で、介入がモデルの有効な生成多様体から表現を押し出すと、効用は主に低下する。
最後に,本分析で導いた新たなステアリング手法を提案する。
コードはhttps://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.mdで入手できる。
関連論文リスト
- Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation [60.33386541343322]
本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
論文 参考訳(メタデータ) (2025-11-24T04:10:46Z) - ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention [86.93601565563954]
ScaleWeaverは、高度な視覚的自己回帰(VAR)モデルに基づいて、高忠実で制御可能な生成を実現するために設計されたフレームワークである。
提案された参照注意モジュールは image$rightarrow$condition から不要な注意を排除し、計算コストを削減している。
実験によると、ScaleWeaverは、拡散ベースの方法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
論文 参考訳(メタデータ) (2025-10-16T17:00:59Z) - The Anatomy of Alignment: Decomposing Preference Optimization by Steering Sparse Features [1.7832672957068079]
このフレームワークは、解釈可能なスパース機能を調節することで、モデル動作を操る軽量なアダプタを訓練する。
この機構は, 学習後プロセスの挙動変化を近似するのに十分な原理と表現性を有することを示す。
全体として、FSRLは解釈可能な制御インターフェースを提供し、フィーチャレベルでの好み最適化の圧力がどのように現れるかを診断する実用的な方法を提供している。
論文 参考訳(メタデータ) (2025-09-16T10:32:40Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - Learning Distribution-Wise Control in Representation Space for Language Models [7.756342860929851]
学習可能な介入は、概念のサブスペースにポイントワイズ制御を適用することを目的としており、ハイレベルな振る舞いを変更するのに有効であることが証明されている。
我々は、このアプローチを分布レベルにまで拡張し、モデルがポイントワイズ変換だけでなく、概念部分空間の周辺領域も学習できるようにする。
論文 参考訳(メタデータ) (2025-06-07T06:52:58Z) - Improved Representation Steering for Language Models [50.86411958644953]
我々は新しいReference-free Preference Steering (RePS)を通して表現ステアリングを改善する方法を示す。
2Bから27Bまでのサイズを持つGemmaモデルでは、RePSは言語モデリングの目的で訓練された既存のステアリングメソッドよりも優れています。
抑圧においては、RePSはGemma-2の言語モデリングの目的と一致し、より大きなGemma-3の変種よりも優れている。
論文 参考訳(メタデータ) (2025-05-27T07:16:40Z) - Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors [13.630818884973127]
タスク演算にインスパイアされた新しいフレームワークであるPreference Vectorを提案する。
単一の目的内で複数の選好を最適化する代わりに、個々の選好について別々のモデルをトレーニングし、選好ベクトルとして振る舞いシフトを抽出し、テスト時に動的にマージします。
実験の結果,提案するPreference Vectorフレームワークは,過度な保守性のない利便性の向上,好みのトレードオフのスムーズな制御,スケーラブルなマルチ参照アライメントをサポートすることがわかった。
論文 参考訳(メタデータ) (2025-04-27T12:16:51Z) - Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文 参考訳(メタデータ) (2023-12-09T04:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。