論文の概要: Where to Steer: Input-Dependent Layer Selection for Steering Improves LLM Alignment
- arxiv url: http://arxiv.org/abs/2604.03867v1
- Date: Sat, 04 Apr 2026 21:16:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.804964
- Title: Where to Steer: Input-Dependent Layer Selection for Steering Improves LLM Alignment
- Title(参考訳): ステアリングの入力依存層選択によるLCMアライメントの改善
- Authors: Soham Gadgil, Chris Lin, Su-In Lee,
- Abstract要約: 望ましいモデル動作の整合性を達成するためには、異なる入力を異なるレイヤで操る必要があることを示す。
入力埋め込みから最適なステアリング層へのマッピングを学習することで、入力に条件付けられた介入層を適応的に選択するフレームワークであるWhere to Steerを紹介する。
- 参考スコア(独自算出の注目度): 17.001194019333052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Steering vectors have emerged as a lightweight and effective approach for aligning large language models (LLMs) at inference time, enabling modulation over model behaviors by shifting LLM representations towards a target behavior. However, existing methods typically apply steering vectors at a globally fixed layer, implicitly assuming that the optimal intervention layer is invariant across inputs. We argue that this assumption is fundamentally limited, as representations relevant to a target behavior can be encoded at different layers depending on the input. Theoretically, we show that different inputs can require steering at different layers to achieve alignment with a desirable model behavior. We also provide empirical evidence that the optimal steering layer varies substantially across inputs in practice. Motivated by these observations, we introduce Where to Steer (W2S), a framework that adaptively selects the intervention layer conditioned on the input, by learning a mapping from input embeddings to optimal steering layers. Across multiple LLMs and alignment behaviors, W2S consistently outperforms fixed-layer baselines, with improvements in both in-distribution and out-of-distribution settings. Our findings highlight the importance of input-dependent control in LLM alignment and demonstrate that adaptive layer selection is a key design dimension missing in the current methodology of steering vectors.
- Abstract(参考訳): ステアリングベクトルは、大規模言語モデル(LLM)を推論時に整列させるための軽量で効果的なアプローチとして登場し、LLM表現を目標行動にシフトさせることでモデル動作の変調を可能にする。
しかし、既存の手法は一般にグローバルな固定層でステアリングベクトルを適用し、最適干渉層が入力間で不変であると暗黙的に仮定する。
対象の振る舞いに関連する表現は入力に応じて異なる層にエンコードできるため、この仮定は基本的に制限されていると我々は論じる。
理論的には、異なる入力が望ましいモデル動作と整合するために異なるレイヤでステアリングする必要があることが示される。
また、最適ステアリング層が実際に入力によって大きく異なるという実証的な証拠も提示する。
本稿では,入力埋め込みから最適ステアリング層へのマッピングを学習することにより,入力に条件付けられた介入層を適応的に選択するフレームワークであるW2Sについて紹介する。
複数のLCMとアライメントの動作で、W2Sは固定層ベースラインを一貫して上回り、配布中と配布外の両方で改善されている。
本研究は, LLMアライメントにおける入力依存制御の重要性を強調し, 現在のステアリングベクトル法において, 適応層選択が重要な設計次元であることを示す。
関連論文リスト
- ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment [49.68063561145927]
活性化ステアリングのための統一常微分方程式(ODE)に基づく理論的枠組みを提案する。
本稿では,バリア関数によって誘導されるODEベースのステアリングの一種であるODESteerを紹介する。
最先端のアクティベーションステアリング手法と比較すると、ODESteerは一貫した経験的改善を実現している。
論文 参考訳(メタデータ) (2026-02-19T17:13:44Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - REAL: Reading Out Transformer Activations for Precise Localization in Language Model Steering [26.428347164111926]
推論時ステアリングは、パラメータを変更することなく、大きな言語モデルの応答を変更することを目的としている。
既存のアプローチはしばしば単純化的なキューやアドホックな一般化に依存している。
本稿では,Transformerモデルにおける振る舞い関連モジュールを識別するフレームワークであるREALを紹介する。
論文 参考訳(メタデータ) (2025-06-10T02:16:50Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [48.15777554876988]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - Guiding Giants: Lightweight Controllers for Weighted Activation Steering in LLMs [8.085475675888045]
アクティベーションステアリングは、推論時間制御の代替を提供する。
推論中に軽量でトレーニング可能なコントローラネットワークを組み込んだ新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T01:48:38Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。