論文の概要: Analyzing the Generalization and Reliability of Steering Vectors
- arxiv url: http://arxiv.org/abs/2407.12404v2
- Date: Mon, 22 Jul 2024 08:28:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 00:02:42.573503
- Title: Analyzing the Generalization and Reliability of Steering Vectors
- Title(参考訳): ステアリングベクトルの一般化と信頼性の解析
- Authors: Daniel Tan, David Chanin, Aengus Lynch, Dimitrios Kanoulas, Brooks Paige, Adria Garriga-Alonso, Robert Kirk,
- Abstract要約: ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
- 参考スコア(独自算出の注目度): 8.253773195379166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Steering vectors (SVs) are a new approach to efficiently adjust language model behaviour at inference time by intervening on intermediate model activations. They have shown promise in terms of improving both capabilities and model alignment. However, the reliability and generalisation properties of this approach are unknown. In this work, we rigorously investigate these properties, and show that steering vectors have substantial limitations both in- and out-of-distribution. In-distribution, steerability is highly variable across different inputs. Depending on the concept, spurious biases can substantially contribute to how effective steering is for each input, presenting a challenge for the widespread use of steering vectors. Out-of-distribution, while steering vectors often generalise well, for several concepts they are brittle to reasonable changes in the prompt, resulting in them failing to generalise well. Overall, our findings show that while steering can work well in the right circumstances, there remain many technical difficulties of applying steering vectors to guide models' behaviour at scale.
- Abstract(参考訳): ステアリングベクトル(SV)は、中間モデルアクティベーションに介入することで、推論時に言語モデルの振る舞いを効率的に調整する新しい手法である。
彼らは、能力とモデルの整合性の両方を改善するという点で、約束を示している。
しかし、このアプローチの信頼性と一般化性は不明である。
本研究では、これらの特性を厳密に研究し、ステアリングベクトルが分布内および分布外の両方に有意な制限を持つことを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
この概念によっては、スプリアスバイアスが各入力に対していかに効果的なステアリングであるかに大きく寄与し、ステアリングベクトルを広く利用する上での課題が提示される。
アウト・オブ・ディストリビューション (Out-of-distribution) では、ベクトルの操舵はよく一般化されるが、いくつかの概念ではプロンプトの合理的な変化に弱いため、うまく一般化できない。
全体としては, ステアリングは適切な状況下ではうまく機能するが, モデル動作を大規模にガイドするためにステアリングベクトルを適用することは, 技術的に困難な点が多いことが示唆された。
関連論文リスト
- AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - Steering Large Language Models with Feature Guided Activation Additions [0.0]
本稿では,新しいアクティベーションステアリング法であるFeature Guided Activation Additions (FGAA)を紹介する。
スパースオートエンコーダ(SAE)の潜在空間で操作することにより、FGAAは正確なステアリングベクトルを構成する。
Gemma-2-2B と Gemma-2-9B モデルの評価は、FGAA が既存のステアリング法より優れていることを示す。
論文 参考訳(メタデータ) (2025-01-17T02:55:23Z) - Steering Large Language Models using Conceptors: Improving Addition-Based Activation Engineering [0.0]
本稿では,事前学習したLLMの出力を,推論時にその活性化を操作することによって制御する,アクティベーションエンジニアリングについて検討する。
本稿では,活性化ベクトルの集合を楕円体領域として表現する数学的構成法を提案する。
本実験は,複数のステアリングタスクにおいて,概念的手法が従来の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-09T10:09:37Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - Extending Activation Steering to Broad Skills and Multiple Behaviours [5.40770929004319]
幅広いスキルと多行動に対するアクティベーションステアリングの有効性について検討した。
より広いスキルを操ることが、より狭いスキルを操ることと競争力があることが分かっています。
私たちは、ミオピックと富の探究を多かれ少なかれ行うようにモデルを操縦します。
論文 参考訳(メタデータ) (2024-03-09T02:30:04Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - AI Enhanced Control Engineering Methods [66.08455276899578]
我々は、AIツールがアプリケーションを制御するのにどのように役立つかを探求する。
直近の2つの応用は、局所安定性解析やカルマンフィルタを用いた状態推定のための系力学の線形化である。
さらに、モデル予測制御アプリケーションにおける状態ベクトルのグローバルパラメータ化と制御入力に対する機械学習モデルの利用について検討する。
論文 参考訳(メタデータ) (2023-06-08T20:31:14Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z) - Pedestrian Detection: Domain Generalization, CNNs, Transformers and
Beyond [82.37430109152383]
その結果、現在の歩行者検知器は、クロスデータセット評価において、たとえ小さな領域シフトであっても処理が不十分であることがわかった。
限定的な一般化は、その方法と現在のデータ源の2つの主要な要因に帰着する。
本稿では、一般化を改善する進歩的な微調整戦略を提案する。
論文 参考訳(メタデータ) (2022-01-10T06:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。