論文の概要: Evaluating Explanations: An Explanatory Virtues Framework for Mechanistic Interpretability -- The Strange Science Part I.ii
- arxiv url: http://arxiv.org/abs/2505.01372v1
- Date: Fri, 02 May 2025 16:18:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:20.084205
- Title: Evaluating Explanations: An Explanatory Virtues Framework for Mechanistic Interpretability -- The Strange Science Part I.ii
- Title(参考訳): 説明の評価 - 機械的解釈可能性のための説明的Virtuesフレームワーク-The Strange Science Part I.ii
- Authors: Kola Ayonrinde, Louis Jaburi,
- Abstract要約: 機械的解釈可能性(Mechanistic Interpretability)は、因果的説明を通じてニューラルネットワークを理解することを目的としている。
進歩は、説明を評価する普遍的なアプローチの欠如によって制限されてきた。
本稿では,MIにおける説明を体系的に評価し,改善するための多元的説明Virtuesフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic Interpretability (MI) aims to understand neural networks through causal explanations. Though MI has many explanation-generating methods, progress has been limited by the lack of a universal approach to evaluating explanations. Here we analyse the fundamental question "What makes a good explanation?" We introduce a pluralist Explanatory Virtues Framework drawing on four perspectives from the Philosophy of Science - the Bayesian, Kuhnian, Deutschian, and Nomological - to systematically evaluate and improve explanations in MI. We find that Compact Proofs consider many explanatory virtues and are hence a promising approach. Fruitful research directions implied by our framework include (1) clearly defining explanatory simplicity, (2) focusing on unifying explanations and (3) deriving universal principles for neural networks. Improved MI methods enhance our ability to monitor, predict, and steer AI systems.
- Abstract(参考訳): 機械的解釈可能性(MI)は、因果的説明を通じてニューラルネットワークを理解することを目的としている。
MIには多くの説明生成手法があるが、説明を評価する普遍的なアプローチが欠如しているため、進歩は限られている。
ここでは、"何が良い説明をするのか?"という根本的な疑問を分析します。
我々は,理科哲学(ベイジアン,クーニアン,ドイッチュアン,ノーモロジー)の4つの観点から,MIにおける説明を体系的に評価し,改善する多元論的な説明的処女の枠組みを紹介した。
コンパクトな証明は、多くの説明的な美徳を考慮し、有望なアプローチであることがわかった。
本研究の枠組みは,(1)説明的単純さを明確に定義すること,(2)統一的説明に焦点を当てること,(3)ニューラルネットワークの普遍的原理を導出すること,である。
改善されたMIメソッドは、AIシステムの監視、予測、およびステアリング能力を高める。
関連論文リスト
- A Mathematical Philosophy of Explanations in Mechanistic Interpretability -- The Strange Science Part I.i [0.0]
我々は、機械的解釈可能性の研究は、モデルを理解するための原則的なアプローチであると主張している。
説明的忠実性(Explainatory Faithfulness)は、説明がモデルにどの程度適合するかを評価する。
論文 参考訳(メタデータ) (2025-05-01T19:08:34Z) - A Mechanistic Explanatory Strategy for XAI [0.0]
本稿では,ディープラーニングシステムの機能的構造を説明するためのメカニズム的戦略を概説する。
この結果は,機械的説明の追求が,従来の説明可能性技術が見落としている要素を明らかにすることを示唆している。
論文 参考訳(メタデータ) (2024-11-02T18:30:32Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - A Theoretical Framework for AI Models Explainability with Application in
Biomedicine [3.5742391373143474]
本稿では,文献に見いだせる内容の合成である説明の新たな定義を提案する。
我々は、忠実性(すなわち、モデルの内部動作と意思決定プロセスの真の説明である説明)と可否性(つまり、その説明がどの程度ユーザにとって説得力のあるように見えるか)の性質に、説明を適合させる。
論文 参考訳(メタデータ) (2022-12-29T20:05:26Z) - NELLIE: A Neuro-Symbolic Inference Engine for Grounded, Compositional, and Explainable Reasoning [59.16962123636579]
本稿では,Prologベースの推論エンジンを新たに提案する。
我々は手作りのルールを、ニューラルネットワークモデリング、ガイド付き生成、半密検索の組み合わせで置き換える。
我々の実装であるNELLIEは、完全に解釈可能なエンドツーエンドの基底QAを示す最初のシステムである。
論文 参考訳(メタデータ) (2022-09-16T00:54:44Z) - Scientific Explanation and Natural Language: A Unified
Epistemological-Linguistic Perspective for Explainable AI [2.7920304852537536]
本稿では,理論と実践のギャップを科学的説明の概念に埋めることを目的として,科学的領域に焦点を当てた。
定量的および定性的手法の混合により、本研究では以下の主要な結論を導出することができる。
論文 参考訳(メタデータ) (2022-05-03T22:31:42Z) - Towards Interpretable Natural Language Understanding with Explanations
as Latent Variables [146.83882632854485]
そこで本研究では,人間に注釈付き説明文の小さなセットだけを必要とする自然言語理解の枠組みを構築した。
我々のフレームワークは、ニューラルネットワークの基本的な推論過程をモデル化する潜在変数として、自然言語の説明を扱う。
論文 参考訳(メタデータ) (2020-10-24T02:05:56Z) - The Struggles of Feature-Based Explanations: Shapley Values vs. Minimal
Sufficient Subsets [61.66584140190247]
機能に基づく説明は、自明なモデルでも問題を引き起こすことを示す。
そこで本研究では,2つの一般的な説明書クラスであるシェープリー説明書と十分最小限の部分集合説明書が,基本的に異なる基底的説明書のタイプをターゲットにしていることを示す。
論文 参考訳(メタデータ) (2020-09-23T09:45:23Z) - A general framework for scientifically inspired explanations in AI [76.48625630211943]
我々は、AIシステムの説明を実装可能な一般的なフレームワークの理論的基盤として、科学的説明の構造の概念をインスタンス化する。
このフレームワークは、AIシステムの"メンタルモデル"を構築するためのツールを提供することを目的としている。
論文 参考訳(メタデータ) (2020-03-02T10:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。