論文の概要: Analyzing the Generalization and Reliability of Steering Vectors
- arxiv url: http://arxiv.org/abs/2407.12404v6
- Date: Mon, 23 Dec 2024 14:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:51:45.417063
- Title: Analyzing the Generalization and Reliability of Steering Vectors
- Title(参考訳): ステアリングベクトルの一般化と信頼性の解析
- Authors: Daniel Tan, David Chanin, Aengus Lynch, Dimitrios Kanoulas, Brooks Paige, Adria Garriga-Alonso, Robert Kirk,
- Abstract要約: ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
- 参考スコア(独自算出の注目度): 8.253773195379166
- License:
- Abstract: Steering vectors (SVs) have been proposed as an effective approach to adjust language model behaviour at inference time by intervening on intermediate model activations. They have shown promise in terms of improving both capabilities and model alignment. However, the reliability and generalisation properties of this approach are unknown. In this work, we rigorously investigate these properties, and show that steering vectors have substantial limitations both in- and out-of-distribution. In-distribution, steerability is highly variable across different inputs. Depending on the concept, spurious biases can substantially contribute to how effective steering is for each input, presenting a challenge for the widespread use of steering vectors. Out-of-distribution, while steering vectors often generalise well, for several concepts they are brittle to reasonable changes in the prompt, resulting in them failing to generalise well. Overall, our findings show that while steering can work well in the right circumstances, there remain technical difficulties of applying steering vectors to guide models' behaviour at scale. Our code is available at https://github.com/dtch1997/steering-bench
- Abstract(参考訳): ステアリングベクトル(SV)は、中間モデルアクティベーションに介入することで、推論時に言語モデルの振る舞いを調整する効果的な手法として提案されている。
彼らは、能力とモデルの整合性の両方を改善するという点で、約束を示している。
しかし、このアプローチの信頼性と一般化性は不明である。
本研究では、これらの特性を厳密に研究し、ステアリングベクトルが分布内および分布外の両方に有意な制限を持つことを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
この概念によっては、スプリアスバイアスが各入力に対していかに効果的なステアリングであるかに大きく寄与し、ステアリングベクトルを広く利用する上での課題が提示される。
アウト・オブ・ディストリビューション (Out-of-distribution) では、ベクトルの操舵はよく一般化されるが、いくつかの概念ではプロンプトの合理的な変化に弱いため、うまく一般化できない。
全体としては, ステアリングは適切な状況下ではうまく機能するが, モデル動作を大規模にガイドするためにステアリングベクトルを適用することは技術的に困難である。
私たちのコードはhttps://github.com/dtch1997/steering-benchで利用可能です。
関連論文リスト
- Improving Steering Vectors by Targeting Sparse Autoencoder Features [2.4188584949331053]
SAE-Targeted Steering (SAE-TS) という改良されたステアリング法を開発し、意図しない副作用を最小限に抑えながら、特定のSAE特徴を標的としたステアリングベクトルを求める。
SAE-TSは,様々なタスクで評価すると,CAAとSAEの特徴的ステアリングよりもコヒーレンスとステアリング効果のバランスが良いことを示す。
論文 参考訳(メタデータ) (2024-11-04T15:46:20Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - Towards Generalizable and Interpretable Motion Prediction: A Deep
Variational Bayes Approach [54.429396802848224]
本稿では,分布外ケースに対する頑健な一般化性を有する動き予測のための解釈可能な生成モデルを提案する。
このモデルでは, 長期目的地の空間分布を推定することにより, 目標駆動動作予測を実現する。
動き予測データセットの実験は、適合したモデルが解釈可能で一般化可能であることを検証した。
論文 参考訳(メタデータ) (2024-03-10T04:16:04Z) - Extending Activation Steering to Broad Skills and Multiple Behaviours [5.40770929004319]
幅広いスキルと多行動に対するアクティベーションステアリングの有効性について検討した。
より広いスキルを操ることが、より狭いスキルを操ることと競争力があることが分かっています。
私たちは、ミオピックと富の探究を多かれ少なかれ行うようにモデルを操縦します。
論文 参考訳(メタデータ) (2024-03-09T02:30:04Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文 参考訳(メタデータ) (2023-12-09T04:40:46Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - On Learning the Tail Quantiles of Driving Behavior Distributions via
Quantile Regression and Flows [13.540998552232006]
本研究では,人間の運転行動確率分布の多様性とテール量子化を正確に把握する学習モデルの問題点を考察する。
この設定に2つのフレキシブルな量子学習フレームワークを適用し、強い分布仮定を避ける。
我々は1ステップの加速予測タスクと複数ステップのドライバーシミュレーションのロールアウトでアプローチを評価した。
論文 参考訳(メタデータ) (2023-05-22T15:09:04Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z) - Causally-motivated Shortcut Removal Using Auxiliary Labels [63.686580185674195]
このようなリスク不変予測器の学習に重要な課題はショートカット学習である。
この課題に対処するために、フレキシブルで因果的なアプローチを提案する。
この因果的動機付けされた正規化スキームが堅牢な予測子を生み出すことを理論的および実証的に示す。
論文 参考訳(メタデータ) (2021-05-13T16:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。