論文の概要: Interpretability Can Be Actionable
- arxiv url: http://arxiv.org/abs/2605.11161v1
- Date: Mon, 11 May 2026 19:08:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.378599
- Title: Interpretability Can Be Actionable
- Title(参考訳): 解釈可能性は実行可能である
- Authors: Hadas Orgad, Fazl Barez, Tal Haklay, Isabelle Lee, Marius Mosbach, Anja Reusch, Naomi Saphra, Byron Wallace, Sarah Wiegreffe, Eric Wong, Ian Tenney, Mor Geva,
- Abstract要約: 解釈可能性とは、ディープニューラルネットワークの振る舞いを説明することである。
急速な成長にもかかわらず、この作品の多くが実際的な影響に変換されていないという懸念が高まっている。
本論文は, 中心的欠落成分は新しい方法ではなく, 評価基準である, 解釈可能性は行動可能性によって評価されるべきである,と論じる。
- 参考スコア(独自算出の注目度): 50.72539106927059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability aims to explain the behavior of deep neural networks. Despite rapid growth, there is mounting concern that much of this work has not translated into practical impact, raising questions about its relevance and utility. This position paper argues that the central missing ingredient is not new methods, but evaluation criteria: interpretability should be evaluated by actionability--the extent to which insights enable concrete decisions and interventions beyond interpretability research itself. We define actionable interpretability along two dimensions--concreteness and validation--and analyze the barriers currently preventing real-world impact. To address these barriers, we identify five domains where interpretability offers unique leverage and present a framework for actionable interpretability with evaluation criteria aligned with practical outcomes. Our goal is not to downplay exploratory research, but to establish actionability as a core objective of interpretability research.
- Abstract(参考訳): 解釈可能性とは、ディープニューラルネットワークの振る舞いを説明することである。
急速な成長にもかかわらず、この作品の多くが実際的な影響に変換されず、その関連性や実用性に関する疑問が持ち上がっている。
本稿では, 中心的欠落成分は, 新たな方法ではなく, 評価基準として, 解釈可能性の評価を, 解釈可能性研究そのものを超えて具体的な決定や介入を可能にする範囲で行うこと, 整合性と検証性という2つの側面に沿って実行可能な解釈可能性を定義し, 実世界の影響を未然に防ぐための障壁を解析すること, と論じる。
これらの障壁に対処するために、解釈可能性がユニークなレバレッジを提供する5つの領域を特定し、実用的な結果と整合した評価基準で実行可能な解釈可能性の枠組みを示す。
我々の目標は、探索研究を軽視することではなく、解釈可能性研究の中核的な目的として行動可能性を確立することである。
関連論文リスト
- Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure [58.89643769707751]
表現空間における潜在連鎖を操作可能な因果過程として研究する。
遅延ステップの予算は、均質な余分な深さよりも、非局所的なルーティングを備えたステージ機能のように振る舞う。
これらの結果は、モード条件と安定性を意識した分析を、潜伏推論システムの解釈と改善のための信頼性の高いツールとして動機付けている。
論文 参考訳(メタデータ) (2026-02-09T15:25:12Z) - Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process [66.38541693477181]
本稿では, アクティベーション空間の方向として, 異なる推論挙動を符号化する, 推論ベクトルの発見のための教師なしフレームワークを提案する。
思考の連鎖トレースを文レベルの「ステップ」にセグメント化することで、リフレクションやバックトラックのような解釈可能な振る舞いに対応する歪んだ特徴を明らかにする。
本研究では,SAEデコーダ空間における信頼性関連ベクトルを同定し,応答信頼性を制御する能力を示す。
論文 参考訳(メタデータ) (2025-12-30T05:09:11Z) - Intrinsic User-Centric Interpretability through Global Mixture of Experts [31.738009841932374]
InterpretCCは、人間の理解の容易さと忠実さの説明を最適化する、本質的に解釈可能なニューラルネットワークのファミリーである。
本報告では,InterpretCCの説明は,他の本質的な解釈可能なアプローチよりも,行動性や有用性が高いことを示す。
論文 参考訳(メタデータ) (2024-02-05T11:55:50Z) - Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。
我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。
インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文 参考訳(メタデータ) (2023-11-16T00:18:50Z) - Fidelity of Interpretability Methods and Perturbation Artifacts in
Neural Networks [5.439020425819001]
ポストホック解釈可能性法は,クラス確率に対する入力特徴の重要性を定量化することを目的としている。
解釈可能性評価手法の一般的なアプローチは、与えられた予測に重要な入力特徴を摂動させ、精度の低下を観測することである。
摂動入力特徴量からモデル精度曲線を利用して,そのようなアーチファクトが忠実度推定に与える影響を推定する手法を提案する。
論文 参考訳(メタデータ) (2022-03-06T10:14:09Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z) - A Bayesian Account of Measures of Interpretability in Human-AI
Interaction [34.99424576619341]
解釈可能なエージェントの振る舞いを設計するための既存のアプローチは、分離時の解釈可能性の異なる尺度を考える。
これらすべての振る舞いを有意義にモデル化できる改訂モデルを提案する。
この統合モデルによる興味深い結果を強調し、ユーザスタディの結果を動機付けます。
論文 参考訳(メタデータ) (2020-11-22T03:28:28Z) - Towards falsifiable interpretability research [7.360807642941714]
我々は、解釈可能性の研究は直観に基づくアプローチへの過度な依存に悩まされていると論じる。
本稿では,解釈可能性手法の2つの一般的なクラスについて検討する。
本稿では,これらの障害に対処する戦略を,強虚な解釈可能性研究のための枠組みとして提案する。
論文 参考訳(メタデータ) (2020-10-22T22:03:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。