論文の概要: Understanding (Un)Reliability of Steering Vectors in Language Models
- arxiv url: http://arxiv.org/abs/2505.22637v1
- Date: Wed, 28 May 2025 17:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.778319
- Title: Understanding (Un)Reliability of Steering Vectors in Language Models
- Title(参考訳): 言語モデルにおけるステアリングベクトルの信頼性の理解
- Authors: Joschka Braun, Carsten Eickhoff, David Krueger, Seyed Ali Bahrainian, Dmitrii Krasheninnikov,
- Abstract要約: 本稿では,アクティベーションの違いが操舵信頼性に及ぼす影響について検討する。
実験で使用した7つのプロンプト型はすべて、正の操舵効果を生じるが、試料間で高いばらつきを示し、しばしば所望のものと逆の効果を与える。
- 参考スコア(独自算出の注目度): 21.33093425619501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Steering vectors are a lightweight method to control language model behavior by adding a learned bias to the activations at inference time. Although steering demonstrates promising performance, recent work shows that it can be unreliable or even counterproductive in some cases. This paper studies the influence of prompt types and the geometry of activation differences on steering reliability. First, we find that all seven prompt types used in our experiments produce a net positive steering effect, but exhibit high variance across samples, and often give an effect opposite of the desired one. No prompt type clearly outperforms the others, and yet the steering vectors resulting from the different prompt types often differ directionally (as measured by cosine similarity). Second, we show that higher cosine similarity between training set activation differences predicts more effective steering. Finally, we observe that datasets where positive and negative activations are better separated are more steerable. Our results suggest that vector steering is unreliable when the target behavior is not represented by a coherent direction.
- Abstract(参考訳): ステアリングベクトルは、推論時にアクティベーションに学習バイアスを加えることで、言語モデルの振る舞いを制御するための軽量な方法である。
ステアリングは有望なパフォーマンスを示すが、最近の研究は信頼できないことや、時には非生産的であることも示している。
本稿では,アクティベーションの違いが操舵信頼性に及ぼす影響について検討する。
まず、実験で使用する7つのプロンプト型はすべて、正の操舵効果をもたらすが、試料間で高いばらつきを示し、しばしば所望のものと逆の効果を与える。
プロンプト型は他のものと明らかに優れるものではないが、異なるプロンプト型から生じるステアリングベクトルはしばしば方向によって異なる(コサイン類似性によって測定される)。
第2に,トレーニングセットのアクティベーション差のコサイン類似度が高いほど,より効果的なステアリングが期待できることを示す。
最後に、ポジティブなアクティベーションとネガティブなアクティベーションがより分離されたデータセットがよりステアブルであることを示す。
その結果, ベクトルステアリングは, 目標動作がコヒーレントな方向で表現されない場合, 信頼性が低いことが示唆された。
関連論文リスト
- Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。
提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。
本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-10-15T08:38:20Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-17T08:32:03Z) - Margin-based sampling in high dimensions: When being active is less
efficient than staying passive [76.71565772067113]
最近の経験的証拠は、辺縁に基づくアクティブラーニングが受動的ラーニングよりもさらに悪い結果をもたらす可能性があることを示唆している。
雑音のないデータであっても、PLが利得ベースALより優れていることがロジスティック回帰の証明である。
以上の結果から, この高次元現象は, クラス間の分離が小さい場合に悪化することが示唆された。
論文 参考訳(メタデータ) (2022-12-01T18:55:59Z) - Why Do Self-Supervised Models Transfer? Investigating the Impact of
Invariance on Downstream Tasks [79.13089902898848]
自己教師付き学習は、非競合画像上での表現学習の強力なパラダイムである。
コンピュータビジョンにおける異なるタスクは、異なる(不変の)分散を符号化する機能を必要とすることを示す。
論文 参考訳(メタデータ) (2021-11-22T18:16:35Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。