論文の概要: A Mathematical Philosophy of Explanations in Mechanistic Interpretability -- The Strange Science Part I.i
- arxiv url: http://arxiv.org/abs/2505.00808v1
- Date: Thu, 01 May 2025 19:08:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.802832
- Title: A Mathematical Philosophy of Explanations in Mechanistic Interpretability -- The Strange Science Part I.i
- Title(参考訳): 機械的解釈可能性における説明の数学的哲学-奇異な科学(I.i)
- Authors: Kola Ayonrinde, Louis Jaburi,
- Abstract要約: 我々は、機械的解釈可能性の研究は、モデルを理解するための原則的なアプローチであると主張している。
説明的忠実性(Explainatory Faithfulness)は、説明がモデルにどの程度適合するかを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic Interpretability aims to understand neural networks through causal explanations. We argue for the Explanatory View Hypothesis: that Mechanistic Interpretability research is a principled approach to understanding models because neural networks contain implicit explanations which can be extracted and understood. We hence show that Explanatory Faithfulness, an assessment of how well an explanation fits a model, is well-defined. We propose a definition of Mechanistic Interpretability (MI) as the practice of producing Model-level, Ontic, Causal-Mechanistic, and Falsifiable explanations of neural networks, allowing us to distinguish MI from other interpretability paradigms and detail MI's inherent limits. We formulate the Principle of Explanatory Optimism, a conjecture which we argue is a necessary precondition for the success of Mechanistic Interpretability.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、因果的説明を通じてニューラルネットワークを理解することを目的としている。
機械的解釈可能性の研究は、ニューラルネットワークが抽出し理解できる暗黙的な説明を含むため、モデルを理解するための原則的なアプローチである。
したがって、説明的忠実性(説明がモデルにどの程度適合するかの評価)が適切に定義されていることを示す。
ニューラルネットワークのモデルレベル、オンティック、因果論的、Falsibilityな説明を生成する手法として、機械的解釈可能性(MI)の定義を提案し、MIと他の解釈可能性パラダイムを区別し、MIの本質的限界を詳述する。
我々は、機械的解釈可能性の成功に必要な前提条件である、説明的最適化の原理を定式化する。
関連論文リスト
- Evaluating Explanations: An Explanatory Virtues Framework for Mechanistic Interpretability -- The Strange Science Part I.ii [0.0]
機械的解釈可能性(Mechanistic Interpretability)は、因果的説明を通じてニューラルネットワークを理解することを目的としている。
進歩は、説明を評価する普遍的なアプローチの欠如によって制限されてきた。
本稿では,MIにおける説明を体系的に評価し,改善するための多元的説明Virtuesフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-02T16:18:40Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - A Theoretical Framework for AI Models Explainability with Application in
Biomedicine [3.5742391373143474]
本稿では,文献に見いだせる内容の合成である説明の新たな定義を提案する。
我々は、忠実性(すなわち、モデルの内部動作と意思決定プロセスの真の説明である説明)と可否性(つまり、その説明がどの程度ユーザにとって説得力のあるように見えるか)の性質に、説明を適合させる。
論文 参考訳(メタデータ) (2022-12-29T20:05:26Z) - MEGAN: Multi-Explanation Graph Attention Network [1.1470070927586016]
マルチエクスラレーショングラフアテンションネットワーク(MEGAN)を提案する。
既存のグラフ説明可能性法とは異なり、ネットワークは複数のチャネルに沿ってノードとエッジの属性の説明を生成することができる。
我々の注意に基づくネットワークは完全に差別化可能であり、説明を指導的な方法で積極的に訓練することができる。
論文 参考訳(メタデータ) (2022-11-23T16:10:13Z) - Scientific Explanation and Natural Language: A Unified
Epistemological-Linguistic Perspective for Explainable AI [2.7920304852537536]
本稿では,理論と実践のギャップを科学的説明の概念に埋めることを目的として,科学的領域に焦点を当てた。
定量的および定性的手法の混合により、本研究では以下の主要な結論を導出することができる。
論文 参考訳(メタデータ) (2022-05-03T22:31:42Z) - Quantum realism: axiomatization and quantification [77.34726150561087]
我々は、量子リアリズムの公理化(量子論と相容れないリアリズムの概念)を構築する。
提案された公理のほとんどすべてを満たすことを示すエントロピー量化器のクラスを明示的に構成する。
論文 参考訳(メタデータ) (2021-10-10T18:08:42Z) - CX-ToM: Counterfactual Explanations with Theory-of-Mind for Enhancing
Human Trust in Image Recognition Models [84.32751938563426]
我々は、深層畳み込みニューラルネットワーク(CNN)による決定を説明するための、新しい説明可能なAI(XAI)フレームワークを提案する。
単発応答として説明を生成するXAIの現在の手法とは対照的に,我々は反復的な通信プロセスとして説明を行う。
本フレームワークは,機械の心と人間の心の相違を媒介し,対話における説明文のシーケンスを生成する。
論文 参考訳(メタデータ) (2021-09-03T09:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。