論文の概要: Understanding Unreliability of Steering Vectors in Language Models: Geometric Predictors and the Limits of Linear Approximations
- arxiv url: http://arxiv.org/abs/2602.17881v1
- Date: Thu, 19 Feb 2026 22:37:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.171825
- Title: Understanding Unreliability of Steering Vectors in Language Models: Geometric Predictors and the Limits of Linear Approximations
- Title(参考訳): 言語モデルにおけるステアリングベクトルの不確かさの理解:幾何学的予測と線形近似の限界
- Authors: Joschka Braun,
- Abstract要約: ステアリング信頼性が行動によって異なる理由と,ベクタートレーニングデータによる影響について検討する。
トレーニングアクティベーションの違いのコサイン類似度が高いと、より信頼性の高いステアリングが予測される。
操舵方向に沿って正負のアクティベーションがより分離された行動データセットは、より確実に操舵可能であることを観察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Steering vectors are a lightweight method for controlling language model behavior by adding a learned bias to the activations at inference time. Although effective on average, steering effect sizes vary across samples and are unreliable for many target behaviors. In my thesis, I investigate why steering reliability differs across behaviors and how it is impacted by steering vector training data. First, I find that higher cosine similarity between training activation differences predicts more reliable steering. Second, I observe that behavior datasets where positive and negative activations are better separated along the steering direction are more reliably steerable. Finally, steering vectors trained on different prompt variations are directionally distinct, yet perform similarly well and exhibit correlated efficacy across datasets. My findings suggest that steering vectors are unreliable when the latent target behavior representation is not effectively approximated by the linear steering direction. Taken together, these insights offer a practical diagnostic for steering unreliability and motivate the development of more robust steering methods that explicitly account for non-linear latent behavior representations.
- Abstract(参考訳): ステアリングベクトルは、推論時のアクティベーションに学習バイアスを加えることで、言語モデルの振る舞いを制御するための軽量な方法である。
平均的には有効であるが、操舵効果の大きさはサンプルによって異なり、多くの標的行動には信頼性がない。
筆者の論文では, ステアリング信頼性が行動によって異なる理由と, ステアリングベクトルトレーニングデータの影響について考察する。
まず、トレーニングアクティベーションの違いのコサイン類似度が高いと、より信頼性の高いステアリングが予測される。
第二に、操舵方向に沿って正負のアクティベーションがより分離された行動データセットは、より確実に操舵可能であることを観察する。
最後に、異なるプロンプト変動に基づいて訓練されたステアリングベクトルは、方向によって異なるが、同様にうまく機能し、データセット間で相関する効果を示す。
その結果,線形操舵方向によって潜在目標行動表現が効果的に近似されない場合,操舵ベクトルは信頼できないことが示唆された。
これらの知見を総合すると、信頼性を損なうための実践的な診断を提供し、非線形潜在行動表現を明示的に考慮したより堅牢なステアリング手法の開発を動機付けている。
関連論文リスト
- AMPS: Adaptive Modality Preference Steering via Functional Entropy [66.69992693275061]
本稿では,各モータリティの情報提供量を定量化し,ステアリングに対するサンプル固有の感受性を明らかにするインスタンス認識診断指標を提案する。
実験結果から, インスタンス認識のステアリングは, 従来のステアリングよりもモダリティの嗜好の調整に優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-02-13T02:29:06Z) - Steering Latent Traits, Not Learned Facts: An Empirical Study of Activation Control Limits [0.0]
大規模言語モデル(LLM)は、多様なアプリケーションにまたがる安全かつ効果的なデプロイメントのために、正確な振る舞い制御を必要とする。
本研究では, ステアリングの有効性が, 異なる行動種によってどのように異なるのか, 対象行動の性質がステアリングの成功を予測することができるのか, という課題に焦点をあてる。
論文 参考訳(メタデータ) (2025-11-23T04:28:41Z) - DISCO: Disentangled Communication Steering for Large Language Models [3.4065590965511436]
本稿では,アテンションヘッド内のクエリおよび値表現空間に直接ステアリングベクトルを注入することを提案する。
本研究では,DISCOステアリング(disentangled Communication, Disentangled Communication,DISCO)と呼ばれる手法がアテンションヘッド出力に与える影響を解析的に評価する。
論文 参考訳(メタデータ) (2025-09-20T21:56:03Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - Understanding (Un)Reliability of Steering Vectors in Language Models [21.33093425619501]
本稿では,アクティベーションの違いが操舵信頼性に及ぼす影響について検討する。
実験で使用した7つのプロンプト型はすべて、正の操舵効果を生じるが、試料間で高いばらつきを示し、しばしば所望のものと逆の効果を与える。
論文 参考訳(メタデータ) (2025-05-28T17:53:31Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。
提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。
本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-10-15T08:38:20Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-17T08:32:03Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - Trajectory Forecasting from Detection with Uncertainty-Aware Motion
Encoding [121.66374635092097]
物体検出と追跡から得られる軌道は、必然的にうるさい。
本稿では, 明示的に形成された軌道に依存することなく, 直接検出結果に基づく軌道予測器を提案する。
論文 参考訳(メタデータ) (2022-02-03T09:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。