Fugu-MT 論文翻訳(概要): Improving Steering Vectors by Targeting Sparse Autoencoder Features

論文の概要: Improving Steering Vectors by Targeting Sparse Autoencoder Features

arxiv url: http://arxiv.org/abs/2411.02193v1
Date: Mon, 04 Nov 2024 15:46:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.131841
Title: Improving Steering Vectors by Targeting Sparse Autoencoder Features
Title（参考訳）: スパースオートエンコーダ機能によるステアリングベクトルの改善
Authors: Sviatoslav Chalnev, Matthew Siu, Arthur Conmy,
Abstract要約: ステアリングベクトルの効果をSAEを用いて測定し、ステアリングベクトル介入の因果効果を理解する方法を提案する。 SAE-Targeted Steering (SAE-TS) という改良されたステアリング法を開発し、意図しない副作用を最小限に抑えながら、特定のSAE特徴を標的としたステアリングベクトルを求める。
参考スコア（独自算出の注目度）: 2.4188584949331053
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To control the behavior of language models, steering methods attempt to ensure that outputs of the model satisfy specific pre-defined properties. Adding steering vectors to the model is a promising method of model control that is easier than finetuning, and may be more robust than prompting. However, it can be difficult to anticipate the effects of steering vectors produced by almost all existing methods, such as CAA (Panickssery et al., 2024) or the direct use of SAE latents (Templeton et al., 2024). In our work, we address this issue by using SAEs to measure the effects of steering vectors, giving us a method that can be used to understand the causal effect of any steering vector intervention. We use this method for measuring causal effects to develop an improved steering method, SAE-Targeted Steering (SAE-TS), which finds steering vectors to target specific SAE features while minimizing unintended side effects. We show that overall, SAE-TS balances steering effects with coherence better than CAA and SAE feature steering, when evaluated on a range of tasks.
Abstract（参考訳）: 言語モデルの振る舞いを制御するために、ステアリング法は、モデルの出力が特定の事前定義された特性を満たすことを保証する。モデルにステアリングベクトルを追加することは、微調整よりも容易で、プロンプトよりも堅牢なモデル制御の有望な方法である。しかし、CAA(Panickssery et al , 2024)やSAE潜伏剤(Templeton et al , 2024)など、ほとんどすべての既存手法による操舵ベクトルの効果を予想することは困難である。本研究では,SAEを用いてステアリングベクターの効果を測定し,ステアリングベクター介入の因果効果を理解する方法を提案する。本研究では,SAE-Targeted Steering (SAE-TS) を改良したステアリング法,SAE-TS(SAE-Targeted Steering) を開発した。全体として,SAE-TSはCAAとSAEの機能ステアリングよりもコヒーレンスとステアリング効果のバランスが良好であることを示し,様々なタスクで評価した。

関連論文リスト

AMPS: Adaptive Modality Preference Steering via Functional Entropy [66.69992693275061]
本稿では,各モータリティの情報提供量を定量化し,ステアリングに対するサンプル固有の感受性を明らかにするインスタンス認識診断指標を提案する。実験結果から, インスタンス認識のステアリングは, 従来のステアリングよりもモダリティの嗜好の調整に優れていたことが示唆された。
論文参考訳（メタデータ） (2026-02-13T02:29:06Z)
Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文参考訳（メタデータ） (2026-02-02T17:04:36Z)
Dynamically Scaled Activation Steering [3.177576903071419]
動的にスケールされたアクティベーションステアリング(DSAS)を導入します。これはメソッドに依存しないステアリングフレームワークで、ステアリングの仕方を分離します。 DSASは、層と入力間の既存の操舵変換の強度を適応的に調節し、望ましくない振る舞いが検出された場合にのみ強く介入する。
論文参考訳（メタデータ） (2025-12-03T10:50:15Z)
Does higher interpretability imply better utility? A Pairwise Analysis on Sparse Autoencoders [63.544453925182005]
3つの言語モデルで90のSAEをトレーニングし、解釈可能性と操舵性を評価します。解析の結果,比較的弱い正の相関(tau b approx 0.298)しか示さず,解釈性は操舵性能の指標として不十分であることが示唆された。本稿では,特徴量の増幅が次のトークン分布に与える影響を計測するデルタトークン信頼性(Delta Token Confidence)という新しい選択基準を提案する。
論文参考訳（メタデータ） (2025-10-04T04:14:50Z)
Enhancing LLM Steering through Sparse Autoencoder-Based Vector Refinement [31.282134977964976]
既存のステアリング手法は、行動情報を学習するために大規模なデータセットに依存している。本稿では,SAAEを利用してステアリングベクトルを意味的に識別・拡張するスパースオートエンコーダ(SAE-RSV)によるステアリングベクトルの精細化について紹介する。本フレームワークでは、まず、SAEが提供するセマンティクスに基づいてタスク関連機能を取り除き、そのセマンティクスの類似性を通じて、小さなデータセットから欠落したタスク関連機能を強化する。
論文参考訳（メタデータ） (2025-09-28T10:49:22Z)
Scaling laws for activation steering with Llama 2 models and refusal mechanisms [0.13194391758295113]
CAAは、モデルの残留ストリームベクトル空間において、コントラッシブペアを用いて望ましい「方向」を見つけることで機能する。本稿では, Llama 2 モデル (7B, 13B, 70B) を用いたモデルスケールCAAの有効性について検討する。
論文参考訳（メタデータ） (2025-07-15T22:21:18Z)
Improved Representation Steering for Language Models [50.86411958644953]
我々は新しいReference-free Preference Steering (RePS)を通して表現ステアリングを改善する方法を示す。 2Bから27Bまでのサイズを持つGemmaモデルでは、RePSは言語モデリングの目的で訓練された既存のステアリングメソッドよりも優れています。抑圧においては、RePSはGemma-2の言語モデリングの目的と一致し、より大きなGemma-3の変種よりも優れている。
論文参考訳（メタデータ） (2025-05-27T07:16:40Z)
Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms [71.85633762642125]
モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
論文参考訳（メタデータ） (2025-05-23T17:59:18Z)
Control-ITRA: Controlling the Behavior of a Driving Model [14.31198056147624]
エージェントの動作に影響を与える制御ITRAと呼ばれる手法を,ウェイポイントの割り当てと目標速度の変調によって導入する。本手法は, 可制御性, 無屈折性トラジェクトリを生成できると同時に, 視界と見えない位置の両方でリアリズムを保ち得ることを示す。
論文参考訳（メタデータ） (2025-01-17T03:35:11Z)
Interpretable Steering of Large Language Models with Feature Guided Activation Additions [4.496738719682736]
本稿では,新しいアクティベーションステアリング法であるFeature Guided Activation Additions (FGAA)を紹介する。スパースオートエンコーダ(SAE)の潜在空間で操作することにより、FGAAは正確なステアリングベクトルを構成する。 Gemma-2-2B と Gemma-2-9B モデルの評価は、FGAA が既存のステアリング法より優れていることを示す。
論文参考訳（メタデータ） (2025-01-17T02:55:23Z)
Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。分散において、ステアビリティは異なる入力間で高度に変動する。アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文参考訳（メタデータ） (2024-07-17T08:32:03Z)
Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。 KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文参考訳（メタデータ） (2024-06-21T01:37:39Z)
Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文参考訳（メタデータ） (2024-05-28T05:10:40Z)
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文参考訳（メタデータ） (2024-01-20T10:41:03Z)
Towards Automated Driving Violation Cause Analysis in Scenario-Based Testing for Autonomous Driving Systems [22.872694649245044]
本稿では,運転違反原因分析(DVCA)ツールを提案する。本ツールでは, 完全コンポーネントレベルの属性精度(100%), ほぼ完全なメッセージレベルの精度(>98%)を実現する。
論文参考訳（メタデータ） (2024-01-19T01:12:37Z)
Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。 CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文参考訳（メタデータ） (2023-12-09T04:40:46Z)
Unsupervised Domain Adaptation for Self-Driving from Past Traversal Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。実世界のデータセットの実験では、大幅な改善が示されている。
論文参考訳（メタデータ） (2023-09-21T15:00:31Z)
Effects of Augmented-Reality-Based Assisting Interfaces on Drivers' Object-wise Situational Awareness in Highly Autonomous Vehicles [13.311257059976692]
われわれは拡張現実(AR)に基づくユーザインタフェースに注力し、道路上の潜在的な危険を浮き彫りにする。本研究は, 交通密度, 物体位置, 物体の種類によって, 運転者のSAに対する強調効果が変化することを示した。
論文参考訳（メタデータ） (2022-06-06T03:23:34Z)
Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文参考訳（メタデータ） (2022-04-28T07:37:21Z)
OSCAR: Data-Driven Operational Space Control for Adaptive and Robust Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2021-10-02T01:21:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。