論文の概要: Steering Vector Fields for Context-Aware Inference-Time Control in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.01654v1
- Date: Mon, 02 Feb 2026 05:14:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.915801
- Title: Steering Vector Fields for Context-Aware Inference-Time Control in Large Language Models
- Title(参考訳): 大規模言語モデルにおける文脈対応推論時間制御のためのステアリングベクトル場
- Authors: Jiaqian Li, Yanshu Li, Kuan-Hao Huang,
- Abstract要約: 本稿では,各アクティベーションにおける操舵方向を局所勾配で定義した,微分可能な概念スコアリング関数を提案する。
この定式化は、共有された整列された概念空間における協調した多層干渉をサポートする。
複数の言語モデル全体で、SVFはより強く信頼性の高い制御を提供し、推論時ステアリングの実用性を改善している。
- 参考スコア(独自算出の注目度): 12.506018278890862
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Steering vectors (SVs) offer a lightweight way to control large language models (LLMs) at inference time by shifting hidden activations, providing a practical middle ground between prompting and fine-tuning. Yet SVs can be unreliable in practice. Some concepts are unsteerable, and even when steering helps on average it can backfire for a non-trivial fraction of inputs. Reliability also degrades in long-form generation and multi-attribute steering. We take a geometric view of these failures. A static SV applies the same update vector everywhere in representation space, implicitly assuming that the concept-improving direction is constant across contexts. When the locally effective direction varies with the current activation, a single global vector can become misaligned, which yields weak or reversed effects. Guided by this perspective, we propose Steering Vector Fields (SVF), which learns a differentiable concept scoring function whose local gradient defines the steering direction at each activation, making interventions explicitly context-dependent. This formulation supports coordinated multi-layer interventions in a shared, aligned concept space, and enables efficient long-form and multi-attribute control within a unified framework. Across multiple LLMs and steering tasks, SVF delivers stronger and more reliable control, improving the practicality of inference-time steering.
- Abstract(参考訳): ステアリングベクトル(SV)は、隠れたアクティベーションをシフトすることで、推論時に大きな言語モデル(LLM)を制御する軽量な方法を提供する。
しかし、実際にはSVは信頼できない。
ステアリングが平均的に役に立つとしても、非自明な入力に対してバックファイアを起こすことがある。
信頼性は、ロングフォーム生成とマルチ属性ステアリングでも低下する。
これらの失敗を幾何学的に見る。
静的SVは表現空間の至る所で同じ更新ベクトルを適用し、概念改善方向がコンテキスト間で一定であると暗黙的に仮定する。
局所的な有効方向が現在の活性化とともに変化すると、単一の大域ベクトルは不整合となり、弱い効果や逆効果をもたらす。
この観点から、各アクティベーションにおけるステアリング方向を局所勾配で定義した微分可能な概念スコアリング関数を学習し、コンテキスト依存の介入を明示的に行うステアリングベクトル場(SVF)を提案する。
この定式化は、共有され整列された概念空間における協調された多層干渉をサポートし、統一されたフレームワーク内で効率的な長期および多属性制御を可能にする。
複数のLCMとステアリングタスクにまたがって、SVFはより強く信頼性の高い制御を提供し、推論時ステアリングの実用性を向上させる。
関連論文リスト
- PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-17T08:32:03Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。