Fugu-MT 論文翻訳(概要): Analyzing the Generalization and Reliability of Steering Vectors -- ICML 2024

論文の概要: Analyzing the Generalization and Reliability of Steering Vectors -- ICML 2024

arxiv url: http://arxiv.org/abs/2407.12404v1
Date: Wed, 17 Jul 2024 08:32:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-18 17:47:48.158881
Title: Analyzing the Generalization and Reliability of Steering Vectors -- ICML 2024
Title（参考訳）: ステアリングベクトルの一般化と信頼性の解析 -- ICML 2024
Authors: Daniel Tan, David Chanin, Aengus Lynch, Dimitrios Kanoulas, Brooks Paige, Adria Garriga-Alonso, Robert Kirk,
Abstract要約: ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。分散において、ステアビリティは異なる入力間で高度に変動する。アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
参考スコア（独自算出の注目度）: 8.253773195379166
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Steering vectors (SVs) are a new approach to efficiently adjust language model behaviour at inference time by intervening on intermediate model activations. They have shown promise in terms of improving both capabilities and model alignment. However, the reliability and generalisation properties of this approach are unknown. In this work, we rigorously investigate these properties, and show that steering vectors have substantial limitations both in- and out-of-distribution. In-distribution, steerability is highly variable across different inputs. Depending on the concept, spurious biases can substantially contribute to how effective steering is for each input, presenting a challenge for the widespread use of steering vectors. Out-of-distribution, while steering vectors often generalise well, for several concepts they are brittle to reasonable changes in the prompt, resulting in them failing to generalise well. Overall, our findings show that while steering can work well in the right circumstances, there remain many technical difficulties of applying steering vectors to guide models' behaviour at scale.
Abstract（参考訳）: ステアリングベクトル(SV)は、中間モデルアクティベーションに介入することで、推論時に言語モデルの振る舞いを効率的に調整する新しい手法である。彼らは、能力とモデルの整合性の両方を改善するという点で、約束を示している。しかし、このアプローチの信頼性と一般化性は不明である。本研究では、これらの特性を厳密に研究し、ステアリングベクトルが分布内および分布外の両方に有意な制限を持つことを示す。分散において、ステアビリティは異なる入力間で高度に変動する。この概念によっては、スプリアスバイアスが各入力に対していかに効果的なステアリングであるかに大きく寄与し、ステアリングベクトルを広く利用する上での課題が提示される。アウト・オブ・ディストリビューション (Out-of-distribution) では、ベクトルの操舵はよく一般化されるが、いくつかの概念ではプロンプトの合理的な変化に弱いため、うまく一般化できない。全体としては, ステアリングは適切な状況下ではうまく機能するが, モデル動作を大規模にガイドするためにステアリングベクトルを適用することは, 技術的に困難な点が多いことが示唆された。

関連論文リスト

Understanding Unreliability of Steering Vectors in Language Models: Geometric Predictors and the Limits of Linear Approximations [0.0]
ステアリング信頼性が行動によって異なる理由と,ベクタートレーニングデータによる影響について検討する。トレーニングアクティベーションの違いのコサイン類似度が高いと、より信頼性の高いステアリングが予測される。操舵方向に沿って正負のアクティベーションがより分離された行動データセットは、より確実に操舵可能であることを観察する。
論文参考訳（メタデータ） (2026-02-19T22:37:05Z)
AMPS: Adaptive Modality Preference Steering via Functional Entropy [66.69992693275061]
本稿では,各モータリティの情報提供量を定量化し,ステアリングに対するサンプル固有の感受性を明らかにするインスタンス認識診断指標を提案する。実験結果から, インスタンス認識のステアリングは, 従来のステアリングよりもモダリティの嗜好の調整に優れていたことが示唆された。
論文参考訳（メタデータ） (2026-02-13T02:29:06Z)
Steering Vector Fields for Context-Aware Inference-Time Control in Large Language Models [12.506018278890862]
本稿では,各アクティベーションにおける操舵方向を局所勾配で定義した,微分可能な概念スコアリング関数を提案する。この定式化は、共有された整列された概念空間における協調した多層干渉をサポートする。複数の言語モデル全体で、SVFはより強く信頼性の高い制御を提供し、推論時ステアリングの実用性を改善している。
論文参考訳（メタデータ） (2026-02-02T05:14:42Z)
One-shot Optimized Steering Vector for Hallucination Mitigation for VLMs [8.089908150148554]
視覚言語モデル(VLM)は、マルチモーダルタスクにおいて高いパフォーマンスを達成するが、まだ幻覚や安全関連の障害に悩まされている。 textbf1-shot textbfSteering with textbfGenerative textbfAnchorは、単一の最適化インスタンスでモデル性能を改善するための、入力に依存しないフレームワークである。
論文参考訳（メタデータ） (2026-01-30T14:47:59Z)
Dynamically Scaled Activation Steering [3.177576903071419]
動的にスケールされたアクティベーションステアリング(DSAS)を導入します。これはメソッドに依存しないステアリングフレームワークで、ステアリングの仕方を分離します。 DSASは、層と入力間の既存の操舵変換の強度を適応的に調節し、望ましくない振る舞いが検出された場合にのみ強く介入する。
論文参考訳（メタデータ） (2025-12-03T10:50:15Z)
Learning to Steer: Input-dependent Steering for Multimodal LLMs [54.41165851011022]
本稿では,入力固有線形シフトを用いたきめ細かいステアリングについて検討する。我々は、入力固有のステアリングベクトルを予測するために、小さな補助モジュールを訓練する。我々のアプローチはL2S(Learn-to-Steer)と呼ばれ、幻覚を減らし、MLLMの安全性を向上し、他の静的ベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-18T10:53:20Z)
GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文参考訳（メタデータ） (2025-07-24T02:34:13Z)
KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文参考訳（メタデータ） (2025-07-11T17:59:36Z)
HyperSteer: Activation Steering at Scale with Hypernetworks [25.6004576064897]
HyperSteerは、自然言語のステアリングプロンプトに条件付きステアリングベクトルを生成するために、エンドツーエンドでトレーニングされたハイパーネットワークベースのアーキテクチャのファミリーである。何千ものステアリングプロンプトによるHyperSteerのスケーリングは、最先端のアクティベーションステアリング手法の性能を上回ることを示す。
論文参考訳（メタデータ） (2025-06-03T18:32:01Z)
Understanding (Un)Reliability of Steering Vectors in Language Models [21.33093425619501]
本稿では,アクティベーションの違いが操舵信頼性に及ぼす影響について検討する。実験で使用した7つのプロンプト型はすべて、正の操舵効果を生じるが、試料間で高いばらつきを示し、しばしば所望のものと逆の効果を与える。
論文参考訳（メタデータ） (2025-05-28T17:53:31Z)
Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms [71.85633762642125]
モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
論文参考訳（メタデータ） (2025-05-23T17:59:18Z)
AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文参考訳（メタデータ） (2025-01-28T18:51:24Z)
Interpretable Steering of Large Language Models with Feature Guided Activation Additions [4.496738719682736]
本稿では,新しいアクティベーションステアリング法であるFeature Guided Activation Additions (FGAA)を紹介する。スパースオートエンコーダ(SAE)の潜在空間で操作することにより、FGAAは正確なステアリングベクトルを構成する。 Gemma-2-2B と Gemma-2-9B モデルの評価は、FGAA が既存のステアリング法より優れていることを示す。
論文参考訳（メタデータ） (2025-01-17T02:55:23Z)
Improving Steering Vectors by Targeting Sparse Autoencoder Features [2.4188584949331053]
SAE-Targeted Steering (SAE-TS) という改良されたステアリング法を開発し、意図しない副作用を最小限に抑えながら、特定のSAE特徴を標的としたステアリングベクトルを求める。 SAE-TSは,様々なタスクで評価すると,CAAとSAEの特徴的ステアリングよりもコヒーレンスとステアリング効果のバランスが良いことを示す。
論文参考訳（メタデータ） (2024-11-04T15:46:20Z)
Steering Large Language Models using Conceptors: Improving Addition-Based Activation Engineering [0.0]
本稿では,事前学習したLLMの出力を,推論時にその活性化を操作することによって制御する,アクティベーションエンジニアリングについて検討する。本稿では,活性化ベクトルの集合を楕円体領域として表現する数学的構成法を提案する。本実験は,複数のステアリングタスクにおいて,概念的手法が従来の手法より優れていることを示す。
論文参考訳（メタデータ） (2024-10-09T10:09:37Z)
Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。 KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文参考訳（メタデータ） (2024-06-21T01:37:39Z)
Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文参考訳（メタデータ） (2024-05-28T05:10:40Z)
Towards Generalizable and Interpretable Motion Prediction: A Deep Variational Bayes Approach [54.429396802848224]
本稿では,分布外ケースに対する頑健な一般化性を有する動き予測のための解釈可能な生成モデルを提案する。このモデルでは, 長期目的地の空間分布を推定することにより, 目標駆動動作予測を実現する。動き予測データセットの実験は、適合したモデルが解釈可能で一般化可能であることを検証した。
論文参考訳（メタデータ） (2024-03-10T04:16:04Z)
Extending Activation Steering to Broad Skills and Multiple Behaviours [5.40770929004319]
幅広いスキルと多行動に対するアクティベーションステアリングの有効性について検討した。より広いスキルを操ることが、より狭いスキルを操ることと競争力があることが分かっています。私たちは、ミオピックと富の探究を多かれ少なかれ行うようにモデルを操縦します。
論文参考訳（メタデータ） (2024-03-09T02:30:04Z)
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文参考訳（メタデータ） (2024-01-20T10:41:03Z)
Steering Llama 2 via Contrastive Activation Addition [41.54815073311959]
コントラストアクティベーション付加(Contrastive Activation Addition、CAA)は、前方通過中にアクティベーションを変更することで言語モデルを操る手法である。 CAAは、Large Language Models (LLMs)において、どのようにハイレベルな概念が表現されるかを正確に判断し、明らかにする。
論文参考訳（メタデータ） (2023-12-09T04:40:46Z)
Unsupervised Domain Adaptation for Self-Driving from Past Traversal Features [69.47588461101925]
本研究では,新しい運転環境に3次元物体検出器を適応させる手法を提案する。提案手法は,空間的量子化履歴特徴を用いたLiDARに基づく検出モデルを強化する。実世界のデータセットの実験では、大幅な改善が示されている。
論文参考訳（メタデータ） (2023-09-21T15:00:31Z)
AI Enhanced Control Engineering Methods [66.08455276899578]
我々は、AIツールがアプリケーションを制御するのにどのように役立つかを探求する。直近の2つの応用は、局所安定性解析やカルマンフィルタを用いた状態推定のための系力学の線形化である。さらに、モデル予測制御アプリケーションにおける状態ベクトルのグローバルパラメータ化と制御入力に対する機械学習モデルの利用について検討する。
論文参考訳（メタデータ） (2023-06-08T20:31:14Z)
On Learning the Tail Quantiles of Driving Behavior Distributions via Quantile Regression and Flows [13.540998552232006]
本研究では,人間の運転行動確率分布の多様性とテール量子化を正確に把握する学習モデルの問題点を考察する。この設定に2つのフレキシブルな量子学習フレームワークを適用し、強い分布仮定を避ける。我々は1ステップの加速予測タスクと複数ステップのドライバーシミュレーションのロールアウトでアプローチを評価した。
論文参考訳（メタデータ） (2023-05-22T15:09:04Z)
Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文参考訳（メタデータ） (2022-04-28T07:37:21Z)
Pedestrian Detection: Domain Generalization, CNNs, Transformers and Beyond [82.37430109152383]
その結果、現在の歩行者検知器は、クロスデータセット評価において、たとえ小さな領域シフトであっても処理が不十分であることがわかった。限定的な一般化は、その方法と現在のデータ源の2つの主要な要因に帰着する。本稿では、一般化を改善する進歩的な微調整戦略を提案する。
論文参考訳（メタデータ） (2022-01-10T06:00:26Z)
Causally-motivated Shortcut Removal Using Auxiliary Labels [63.686580185674195]
このようなリスク不変予測器の学習に重要な課題はショートカット学習である。この課題に対処するために、フレキシブルで因果的なアプローチを提案する。この因果的動機付けされた正規化スキームが堅牢な予測子を生み出すことを理論的および実証的に示す。
論文参考訳（メタデータ） (2021-05-13T16:58:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。