論文の概要: From Attribution to Action: A Human-Centered Application of Activation Steering
- arxiv url: http://arxiv.org/abs/2604.11467v1
- Date: Mon, 13 Apr 2026 13:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.568891
- Title: From Attribution to Action: A Human-Centered Application of Activation Steering
- Title(参考訳): 属性から行動へ:アクティベーションステアリングの人間中心の応用
- Authors: Tobias Labarta, Maximilian Dreyer, Katharina Weitz, Wojciech Samek, Sebastian Lapuschkin,
- Abstract要約: XAIを介して特定されたコンポーネントの活性化ステアリングは、実行可能な説明への道を提供する。
本研究では,SAEに基づく属性とアクティベーションステアリングを組み合わせた対話型ワークフローを導入し,視覚モデルにおける概念利用のインスタンスレベルの分析を行う。
我々は,アクティベーション・ステアリングの実践者がどのように判断し,信頼し,適用するかを検討するために,半構造化された専門家インタビューを行う。
- 参考スコア(独自算出の注目度): 25.9571508713497
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Explainable AI (XAI) methods reveal which features influence model predictions, yet provide limited means for practitioners to act on these explanations. Activation steering of components identified via XAI offers a path toward actionable explanations, although its practical utility remains understudied. We introduce an interactive workflow combining SAE-based attribution with activation steering for instance-level analysis of concept usage in vision models, implemented as a web-based tool. Based on this workflow, we conduct semi-structured expert interviews (N=8) with debugging tasks on CLIP to investigate how practitioners reason about, trust, and apply activation steering. We find that steering enables a shift from inspection to intervention-based hypothesis testing (8/8 participants), with most grounding trust in observed model responses rather than explanation plausibility alone (6/8). Participants adopted systematic debugging strategies dominated by component suppression (7/8) and highlighted risks including ripple effects and limited generalization of instance-level corrections. Overall, activation steering renders interpretability more actionable while raising important considerations for safe and effective use.
- Abstract(参考訳): 説明可能なAI(XAI)手法は、どの特徴がモデル予測に影響を与えるかを明らかにするが、実践者がこれらの説明を行うための限られた手段を提供する。
XAIを介して特定されたコンポーネントの活性化ステアリングは、実用性はまだ検討されていないが、実行可能な説明への道を提供する。
本稿では,SAEベースの属性とアクティベーションステアリングを組み合わせて,Webベースのツールとして実装された視覚モデルにおける概念利用のインスタンスレベルの分析を行う対話型ワークフローを提案する。
このワークフローに基づいて、CLIPのデバッグタスクと半構造化専門家インタビュー(N=8)を行い、実践者がアクティベーションステアリングをどのように推論し、信頼し、適用するかを検討する。
ステアリングは,検査から介入に基づく仮説テスト (8/8 の参加者) への移行を可能にする。
参加者は、コンポーネントの抑制(7/8)に支配される系統的なデバッグ戦略を採用し、リップル効果やインスタンスレベルの修正の限定的な一般化を含むリスクを強調した。
全体として、アクティベーションステアリングは、安全で効果的な使用のための重要な考慮を提起しながら、より実用的な解釈可能性をもたらす。
関連論文リスト
- ActFER: Agentic Facial Expression Recognition via Active Tool-Augmented Visual Reasoning [55.562958315741646]
本稿では, アクティブな視覚的エビデンス獲得とマルチモーダル推論を兼ね備えたエージェントフレームワークであるActFERを提案する。
さらに,エージェントFERに適した強化学習アルゴリズムである実用性キャリブレーションGRPOを開発した。
論文 参考訳(メタデータ) (2026-04-10T05:53:19Z) - Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics [81.80010043113445]
局所的な微調整、LoRAに基づく適応、およびアクティベーションに基づく介入を分離して研究する。
制御信号によって誘導される動的ウェイト更新として、これらの介入をフレーム化する統一的な視点を示す。
提案手法では,選択と効用との間に一貫したトレードオフが観測される。
論文 参考訳(メタデータ) (2026-02-02T17:04:36Z) - Mechanistic Indicators of Steering Effectiveness in Large Language Models [3.635648354808971]
アクティベーションベースのステアリングにより、大規模言語モデルでは、トレーニングをせずに中間的アクティベーションに介入することで、ターゲットとなる振る舞いを表現できる。
広く使われているにもかかわらず、操舵が成功または失敗する際の機械的要因はいまだに理解されていない。
ステアリングの信頼性を内部モデル信号を用いて診断できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-02T06:56:22Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Steering [22.666436755894328]
大規模言語モデル(LLM)は、推論時にプロンプト(コンテキスト内学習)と内部アクティベーション(アクティベーションステアリング)を通じて制御できる。
この研究は、LCM行動の即時およびアクティベーションに基づく制御の統一的な説明と、これらの介入の効果を実証的に予測するための方法論を提供する。
論文 参考訳(メタデータ) (2025-11-01T16:46:03Z) - Mechanistic interpretability for steering vision-language-action models [0.23371356738437823]
VLA(Vision-Language-Action)モデルは、一般のエンボディエージェントを実現するための有望な道である。
本稿では,VLAを内部表現で解釈し,操作するための最初のフレームワークを紹介する。
我々は、微調整、報酬信号、環境相互作用を伴わずに、リアルタイムに行動を調整する汎用的なアクティベーションステアリング手法を提案する。
論文 参考訳(メタデータ) (2025-08-30T03:01:57Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - A Unified Understanding and Evaluation of Steering Methods [17.420727709895736]
ステアリング法は、中間活性化にステアリングベクトルを適用することにより、大きな言語モデルを制御するための実践的なアプローチを提供する。
その重要性は増しているが、この分野には、タスクやデータセット間で統一された理解と一貫した評価が欠けている。
本稿では, ステアリング手法を解析・評価し, 基本原理を定式化し, 有効性に関する理論的知見を提供する統一的枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-04T20:55:24Z) - An active learning method for solving competitive multi-agent decision-making and control problems [1.2430809884830318]
競合エージェントの集団に対する定常行動プロファイルを特定するための,新しいアクティブラーニング手法を提案する。
提案手法は,典型的なマルチエージェント制御と意思決定問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2022-12-23T19:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。