論文の概要: Mechanistic Interpretability Needs Philosophy
- arxiv url: http://arxiv.org/abs/2506.18852v1
- Date: Mon, 23 Jun 2025 17:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.10015
- Title: Mechanistic Interpretability Needs Philosophy
- Title(参考訳): 機械的解釈可能性には哲学が必要である
- Authors: Iwan Williams, Ninell Oldenburg, Ruchira Dhar, Joshua Hatherley, Constanza Fierro, Nina Rajcic, Sandrine R. Schiller, Filippos Stamatiou, Anders Søgaard,
- Abstract要約: 機械的解釈可能性には哲学が必要だ、と我々は主張する: 後から考えるのではなく、その概念を明確にするための継続的なパートナーとしてである。
本稿では、MI研究に価値哲学を付加する可能性を示し、より深い学際的対話への道筋を概説する。
- 参考スコア(独自算出の注目度): 32.28998520468988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mechanistic interpretability (MI) aims to explain how neural networks work by uncovering their underlying causal mechanisms. As the field grows in influence, it is increasingly important to examine not just models themselves, but the assumptions, concepts and explanatory strategies implicit in MI research. We argue that mechanistic interpretability needs philosophy: not as an afterthought, but as an ongoing partner in clarifying its concepts, refining its methods, and assessing the epistemic and ethical stakes of interpreting AI systems. Taking three open problems from the MI literature as examples, this position paper illustrates the value philosophy can add to MI research, and outlines a path toward deeper interdisciplinary dialogue.
- Abstract(参考訳): 機械的解釈可能性(MI)は、ニューラルネットワークが根底にある因果メカニズムを明らかにすることによってどのように機能するかを説明することを目的としている。
この分野が影響力を増すにつれて、モデル自体だけでなく、仮説、概念、説明的戦略をMI研究で暗黙的に検討することがますます重要になっている。
機械的解釈可能性には哲学が必要だ、と我々は主張する: 後から考えるのではなく、その概念を明確にし、その方法を修正し、AIシステムを解釈する上での認識的および倫理的要素を評価するパートナーとして進行中である。
このポジションペーパーは、MI文献から3つのオープンな問題を例に挙げ、MI研究に価値哲学が付加できることを示すとともに、より深い学際的対話への道のりを概説する。
関連論文リスト
- Evaluating Explanations: An Explanatory Virtues Framework for Mechanistic Interpretability -- The Strange Science Part I.ii [0.0]
機械的解釈可能性(Mechanistic Interpretability)は、因果的説明を通じてニューラルネットワークを理解することを目的としている。
進歩は、説明を評価する普遍的なアプローチの欠如によって制限されてきた。
本稿では,MIにおける説明を体系的に評価し,改善するための多元的説明Virtuesフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-02T16:18:40Z) - A Mathematical Philosophy of Explanations in Mechanistic Interpretability -- The Strange Science Part I.i [0.0]
我々は、機械的解釈可能性の研究は、モデルを理解するための原則的なアプローチであると主張している。
説明的忠実性(Explainatory Faithfulness)は、説明がモデルにどの程度適合するかを評価する。
論文 参考訳(メタデータ) (2025-05-01T19:08:34Z) - A Mechanistic Explanatory Strategy for XAI [0.0]
本稿では,ディープラーニングシステムの機能的構造を説明するためのメカニズム的戦略を概説する。
この結果は,機械的説明の追求が,従来の説明可能性技術が見落としている要素を明らかにすることを示唆している。
論文 参考訳(メタデータ) (2024-11-02T18:30:32Z) - A Theoretical Survey on Foundation Models [48.2313835471321]
本調査は、上記の原則に準拠し、ブラックボックス基礎モデルに適用された解釈可能な手法についてレビューすることを目的としている。
これらの手法は機械学習理論に深く根ざしており、一般化性能、表現能力、動的挙動の分析を網羅している。
これらは、推論能力やトレーニングダイナミクスから倫理的意味まで、FMのワークフロー全体の完全な解釈を提供する。
論文 参考訳(メタデータ) (2024-10-15T09:48:03Z) - Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals [82.68757839524677]
解釈可能性研究は、経験的成功と大規模言語モデル(LLM)の科学的理解のギャップを埋めることを目的としている。
本稿では,個々のメカニズムではなく,複数のメカニズムの相互作用に着目した,メカニズムの競合の定式化を提案する。
本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T17:26:51Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Rethinking Explainability as a Dialogue: A Practitioner's Perspective [57.87089539718344]
医師、医療専門家、政策立案者に対して、説明を求めるニーズと欲求について尋ねる。
本研究は, 自然言語対話の形での対話的説明を, 意思決定者が強く好むことを示唆する。
これらのニーズを考慮して、インタラクティブな説明を設計する際に、研究者が従うべき5つの原則を概説する。
論文 参考訳(メタデータ) (2022-02-03T22:17:21Z) - A general framework for scientifically inspired explanations in AI [76.48625630211943]
我々は、AIシステムの説明を実装可能な一般的なフレームワークの理論的基盤として、科学的説明の構造の概念をインスタンス化する。
このフレームワークは、AIシステムの"メンタルモデル"を構築するためのツールを提供することを目的としている。
論文 参考訳(メタデータ) (2020-03-02T10:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。