論文の概要: Improving Steering Vectors by Targeting Sparse Autoencoder Features
- arxiv url: http://arxiv.org/abs/2411.02193v2
- Date: Thu, 21 Nov 2024 12:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:17:18.511583
- Title: Improving Steering Vectors by Targeting Sparse Autoencoder Features
- Title(参考訳): スパースオートエンコーダ機能によるステアリングベクトルの改善
- Authors: Sviatoslav Chalnev, Matthew Siu, Arthur Conmy,
- Abstract要約: SAE-Targeted Steering (SAE-TS) という改良されたステアリング法を開発し、意図しない副作用を最小限に抑えながら、特定のSAE特徴を標的としたステアリングベクトルを求める。
SAE-TSは,様々なタスクで評価すると,CAAとSAEの特徴的ステアリングよりもコヒーレンスとステアリング効果のバランスが良いことを示す。
- 参考スコア(独自算出の注目度): 2.4188584949331053
- License:
- Abstract: To control the behavior of language models, steering methods attempt to ensure that outputs of the model satisfy specific pre-defined properties. Adding steering vectors to the model is a promising method of model control that is easier than finetuning, and may be more robust than prompting. However, it can be difficult to anticipate the effects of steering vectors produced by methods such as CAA [Panickssery et al., 2024] or the direct use of SAE latents [Templeton et al., 2024]. In our work, we address this issue by using SAEs to measure the effects of steering vectors, giving us a method that can be used to understand the causal effect of any steering vector intervention. We use this method for measuring causal effects to develop an improved steering method, SAE-Targeted Steering (SAE-TS), which finds steering vectors to target specific SAE features while minimizing unintended side effects. We show that overall, SAE-TS balances steering effects with coherence better than CAA and SAE feature steering, when evaluated on a range of tasks.
- Abstract(参考訳): 言語モデルの振る舞いを制御するために、ステアリング法は、モデルの出力が特定の事前定義された特性を満たすことを保証する。
モデルにステアリングベクトルを追加することは、微調整よりも容易で、プロンプトよりも堅牢なモデル制御の有望な方法である。
しかし,CAA (Panickssery et al , 2024] 法やSAE潜伏剤 (Templeton et al , 2024] の直接使用による操舵ベクトルの影響は予測できない。
本研究では,SAEを用いてステアリングベクターの効果を測定し,ステアリングベクター介入の因果効果を理解する方法を提案する。
本研究では, 因果効果を測定するために, SAE-Targeted Steering (SAE-TS) という改良されたステアリング法を開発し, 意図しない副作用を最小限に抑えながら, 特定のSAE特徴を標的としたステアリングベクトルを求める。
全体として,SAE-TSはCAAとSAEの機能ステアリングよりもコヒーレンスとステアリング効果のバランスが良好であることを示し,様々なタスクで評価した。
関連論文リスト
- Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-17T08:32:03Z) - Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。
KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。
本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文 参考訳(メタデータ) (2024-06-21T01:37:39Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Towards Automated Driving Violation Cause Analysis in Scenario-Based
Testing for Autonomous Driving Systems [22.872694649245044]
本稿では,運転違反原因分析(DVCA)ツールを提案する。
本ツールでは, 完全コンポーネントレベルの属性精度(100%), ほぼ完全なメッセージレベルの精度(>98%)を実現する。
論文 参考訳(メタデータ) (2024-01-19T01:12:37Z) - Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。
CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文 参考訳(メタデータ) (2023-12-09T04:40:46Z) - Unsupervised Domain Adaptation for Self-Driving from Past Traversal
Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。
提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。
実世界のデータセットの実験では、大幅な改善が示されている。
論文 参考訳(メタデータ) (2023-09-21T15:00:31Z) - Effects of Augmented-Reality-Based Assisting Interfaces on Drivers'
Object-wise Situational Awareness in Highly Autonomous Vehicles [13.311257059976692]
われわれは拡張現実(AR)に基づくユーザインタフェースに注力し、道路上の潜在的な危険を浮き彫りにする。
本研究は, 交通密度, 物体位置, 物体の種類によって, 運転者のSAに対する強調効果が変化することを示した。
論文 参考訳(メタデータ) (2022-06-06T03:23:34Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。