論文の概要: Beyond Steering Vector: Flow-based Activation Steering for Inference-Time Intervention
- arxiv url: http://arxiv.org/abs/2605.05892v1
- Date: Thu, 07 May 2026 09:03:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.648531
- Title: Beyond Steering Vector: Flow-based Activation Steering for Inference-Time Intervention
- Title(参考訳): ステアリングベクトルを超えて - 推論時間干渉のためのフローベースアクティベーションステアリング
- Authors: Zehao Jin, Ruixuan Deng, Junran Wang, Xinjie Shen, Chao Zhang,
- Abstract要約: アクティベーションステアリングは、推論時に言語モデルの振る舞いを制御するための有望な代替手段として登場した。
既存のステアリング法は、単純なインコンテクストのプロンプトによって、しばしば性能を上回り、目に見えない概念を一般化する。
本研究では,これらの仮定に頼らずに,非ステアリングをステアリングに伝達する,概念条件付速度場を学習するFLASを提案する。
- 参考スコア(独自算出の注目度): 5.955857526317744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation steering has emerged as a promising alternative for controlling language-model behavior at inference time by modifying intermediate representations while keeping model parameters frozen. However, large-scale evaluations such as AxBench show that existing steering methods are often outperformed by simple in-context prompting and generalize poorly to unseen concepts. We hypothesize that these limitations arise from unvalidated simplifying assumptions shared across prior methods, which typically restrict steering interventions to fixed, single-step, position-invariant transforms. We propose FLAS (Flow-based Activation Steering), which learns a general, concept-conditioned velocity field $v_t(h,t,c)$ that transports unsteered activations to steered ones without relying on these assumptions. On AxBench, FLAS is the first learned method to consistently outperform prompting, reaching held-out harmonic means of $1.015$ on Gemma-2-2B-IT and $1.113$ on Gemma-2-9B-IT without per-concept tuning. Analysis of the learned flow shows curved, multi-step, token-varying trajectories, which suggests that previous hypotheses on activation space geometry might be incomplete.
- Abstract(参考訳): アクティベーションステアリングは、モデルパラメータを凍結させながら中間表現を変更することで、推論時に言語モデル動作を制御するための有望な代替手段として登場した。
しかし、AxBenchのような大規模評価では、既存のステアリング法は、単純なインコンテキストのプロンプトによって、しばしば性能が向上し、目に見えない概念に悪影響を及ぼすことが示されている。
これらの制限は、従来手法間で共有されていた非有意な単純化仮定から生じ、通常、ステアリングの介入を固定された単一ステップの位置不変変換に制限する、という仮説を立てる。
本稿では,FLAS(Flow-based Activation Steering)を提案する。FLASは概念条件付き速度場$v_t(h,t,c)$を学習し,非ステアリングをこれらの仮定に頼らずにステアリングに転送する。
AxBench では、FLAS は Gemma-2B-IT で1.015ドル、Gemma-2-9B-IT で1.113ドル、コンセプションごとのチューニング無しで持続的に性能を向上する最初の学習方法である。
学習した流れの解析は、カーブした多段階のトークン変動軌道を示し、これは、活性化空間幾何学に関する以前の仮説が不完全である可能性を示唆している。
関連論文リスト
- FineSteer: A Unified Framework for Fine-Grained Inference-Time Steering in Large Language Models [15.040862439283593]
FineSteerは、推論時のステアリングを2つの相補的なステージに分解する、新しいステアリングフレームワークである。
最初の段階では、不要なステアリングを回避してモデルユーティリティを保存するサブスペース誘導型コンディショナルステアリング(SCS)機構を導入する。
第2段階では、所望の操舵動作のマルチモーダルな性質を捉えるMixture-of-Steering-Experts (MoSE) 機構を提案する。
論文 参考訳(メタデータ) (2026-04-16T19:41:41Z) - COLD-Steer: Steering Large Language Models via In-Context One-step Learning Dynamics [5.971951524892311]
アクティベーションステアリング法は,大規模言語モデル (LLM) の動作を再訓練することなく,推論時制御を可能にする。
COLD-Steerは、LLMアクティベーションを制御できるトレーニングフリーフレームワークであり、インコンテキスト上の勾配勾配から生じる表現的変化を近似することで、LCMアクティベーションを制御できる。
様々なステアリングタスクとベンチマーク実験により、COLD-Steerは最高のベースラインの50倍のサンプルを使用しながら、最大95%のステアリング効率を達成することが示された。
論文 参考訳(メタデータ) (2026-03-06T17:27:27Z) - Weight Updates as Activation Shifts: A Principled Framework for Steering [54.70188910511715]
アクティベーションステアリングは極めてパラメータ効率のよい適応形態となるが、その有効性は重要な設計選択に依存する。
我々は,活性化空間介入と重量空間更新の1次等価性を確立し,活性化ステアリングが微調整動作を再現できる条件を導出する。
この等価性は、設計をステアリングするための原則的な枠組みをもたらし、ポストブロック出力を理論的に支持され、非常に表現力のある介入サイトとして特定する。
論文 参考訳(メタデータ) (2026-02-28T02:50:04Z) - Primary-Fine Decoupling for Action Generation in Robotic Imitation [91.2899765310853]
ロボット操作動作シーケンスにおけるマルチモーダル分布は、模倣学習にとって重要な課題である。
PF-DAG(プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、PF-DAG)を提案する。
PF-DAGは、Adroit、DexArt、MetaWorldベンチマークの56タスクで最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-25T08:36:45Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - TABES: Trajectory-Aware Backward-on-Entropy Steering for Masked Diffusion Models [35.327100592206115]
Backward-on-Entropy (BoE) Steeringは勾配誘導型推論フレームワークで、無限水平コンテキストを1つの後方パスで近似する。
スケーラビリティを確保するために,マスク対象の構造を利用した疎結合プリミティブであるttexttActiveQueryAttentionを導入し,後方通過の複雑さを低減する。
論文 参考訳(メタデータ) (2026-01-30T19:10:32Z) - Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection [1.7802147489386628]
大規模言語モデル(LLM)は、有害な行動を引き起こす敵攻撃に対して脆弱なままである。
我々は2つの重要な革新を通じてこれらの制限に対処する選択ステアリングを提案する。
9つのモデルに対する実験により、選択ステアリングは以前の手法よりも5.5倍の攻撃成功率を達成することが示された。
論文 参考訳(メタデータ) (2026-01-27T08:56:25Z) - From Patterns to Predictions: A Shapelet-Based Framework for Directional Forecasting in Noisy Financial Markets [8.168261768703621]
金融市場の方向性予測には正確性と解釈可能性の両方が必要である。
教師なしのパターン抽出と解釈可能な予測を統合する2段階のフレームワークを提案する。
我々のアプローチは、予測結果を導くパターン構造を明らかにすることによって、透明性のある意思決定を可能にします。
論文 参考訳(メタデータ) (2025-09-18T15:05:27Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。