論文の概要: Everything, Everywhere, All at Once: Is Mechanistic Interpretability Identifiable?
- arxiv url: http://arxiv.org/abs/2502.20914v1
- Date: Fri, 28 Feb 2025 10:13:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:44:19.201382
- Title: Everything, Everywhere, All at Once: Is Mechanistic Interpretability Identifiable?
- Title(参考訳): メカニスティックな解釈は可能か?
- Authors: Maxime Méloux, Silviu Maniu, François Portet, Maxime Peyrard,
- Abstract要約: 機械的解釈可能性(MI)は、人間の理解可能なアルゴリズムを抽出して、その振る舞いを説明することで、ニューラルネットワークをリバースエンジニアリングすることを目的としている。
与えられた行動に対して、そしてMIの基準の下では、ユニークな説明が存在するか?
- 参考スコア(独自算出の注目度): 16.90219989537838
- License:
- Abstract: As AI systems are used in high-stakes applications, ensuring interpretability is crucial. Mechanistic Interpretability (MI) aims to reverse-engineer neural networks by extracting human-understandable algorithms to explain their behavior. This work examines a key question: for a given behavior, and under MI's criteria, does a unique explanation exist? Drawing on identifiability in statistics, where parameters are uniquely inferred under specific assumptions, we explore the identifiability of MI explanations. We identify two main MI strategies: (1) "where-then-what," which isolates a circuit replicating model behavior before interpreting it, and (2) "what-then-where," which starts with candidate algorithms and searches for neural activation subspaces implementing them, using causal alignment. We test both strategies on Boolean functions and small multi-layer perceptrons, fully enumerating candidate explanations. Our experiments reveal systematic non-identifiability: multiple circuits can replicate behavior, a circuit can have multiple interpretations, several algorithms can align with the network, and one algorithm can align with different subspaces. Is uniqueness necessary? A pragmatic approach may require only predictive and manipulability standards. If uniqueness is essential for understanding, stricter criteria may be needed. We also reference the inner interpretability framework, which validates explanations through multiple criteria. This work contributes to defining explanation standards in AI.
- Abstract(参考訳): AIシステムは高度なアプリケーションで使用されるため、解釈可能性を保証することが不可欠である。
機械的解釈可能性(MI)は、人間の理解可能なアルゴリズムを抽出して、その振る舞いを説明することで、ニューラルネットワークをリバースエンジニアリングすることを目的としている。
与えられた行動に対して、そしてMIの基準の下では、ユニークな説明が存在するか?
パラメータが特定の仮定の下で一意に推論される統計学における識別可能性に基づいて、MI説明の識別可能性について検討する。
我々は,(1)解釈前にモデル動作を複製する回路を分離する「where-then-what」と(2)候補アルゴリズムから始まる「what-then-where」と,それらを実装したニューラルアクティベーション部分空間を因果アライメントを用いて探索する「What-then-where」の2つの主要なMI戦略を同定する。
ブール関数と小さな多層パーセプトロンの両方の戦略を検証し、候補説明を完全に列挙する。
複数の回路は動作を再現でき、回路は複数の解釈を持ち、複数のアルゴリズムはネットワークと整合し、1つのアルゴリズムは異なる部分空間と整合することができる。
ユニークさは必要か?
現実的なアプローチは、予測と操作可能性の基準だけを必要とするかもしれない。
ユニークさが理解に不可欠であれば、より厳格な基準が必要になるかもしれない。
また、複数の基準による説明の検証を行う内的解釈可能性フレームワークについても言及する。
この研究は、AIにおける説明基準の定義に寄与する。
関連論文リスト
- Adaptive Circuit Behavior and Generalization in Mechanistic Interpretability [3.138731415322007]
GPT-2小領域における間接物体識別(IOI)回路の汎用性について検討する。
その結果、回路は驚くほどよく一般化し、全ての部品と機構を再利用し、入力エッジを追加するだけでよいことがわかった。
論文 参考訳(メタデータ) (2024-11-25T05:32:34Z) - Towards Generative Abstract Reasoning: Completing Raven's Progressive Matrix via Rule Abstraction and Selection [52.107043437362556]
Raven's Progressive Matrix (RPM) は、マシンインテリジェンスにおける抽象的な視覚的推論を探索するために広く使われている。
RPMテストの参加者は、属性変更ルールを推論し、組み合わせることで、強力な推論能力を示すことができる。
本稿では,ルール AbstractIon と Selection を用いて,回答生成問題に対する潜時変数モデルを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:28:44Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - Measuring the Interpretability of Unsupervised Representations via
Quantized Reverse Probing [97.70862116338554]
本稿では,自己教師付き表現の解釈可能性の測定問題について検討する。
我々は、後者を、表現と手動でラベル付けされた概念の空間の間の相互情報を推定するものとして定式化する。
提案手法は,多人数の自己教師付き表現の評価に利用し,解釈可能性による評価を行う。
論文 参考訳(メタデータ) (2022-09-07T16:18:50Z) - Statistically Meaningful Approximation: a Case Study on Approximating
Turing Machines with Transformers [50.85524803885483]
本研究は,統計的学習性を示すために近似ネットワークを必要とする統計有意(SM)近似の形式的定義を提案する。
回路とチューリングマシンの2つの機能クラスに対するSM近似について検討する。
論文 参考訳(メタデータ) (2021-07-28T04:28:55Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z) - Expressive Explanations of DNNs by Combining Concept Analysis with ILP [0.3867363075280543]
我々は,dnn(feed-forward convolutional deep neural network)の理論的根拠をグローバル,表現的,言語的に説明するために,ネットワークが学習した本質的特徴を用いた。
我々の説明は元々のブラックボックスモデルに忠実であることを示している。
論文 参考訳(メタデータ) (2021-05-16T07:00:27Z) - Invariance, encodings, and generalization: learning identity effects
with neural networks [0.0]
単純な基準を満たすアルゴリズムが正しい推論を行うことができないことを厳密に証明できるフレームワークを提供する。
次に,勾配に基づくアルゴリズムで学習した深層フィードフォワードニューラルネットワークを含む幅広い学習アルゴリズムが,我々の基準を満たしていることを示す。
より広い状況では、ネットワークが必ずしも誤って分類する逆の例を提供することができます。
論文 参考訳(メタデータ) (2021-01-21T01:28:15Z) - Explainable AI for Classification using Probabilistic Logic Inference [9.656846523452502]
説明可能な分類法を提案する。
本手法は,まず学習データから記号的知識ベースを構築し,その知識ベース上で線形プログラミングによる確率的推論を行う。
これは、ある分類を説明として責任を負う決定的な特徴を特定し、アートリー値ベースの手法であるSHAPに類似した結果を生成する。
論文 参考訳(メタデータ) (2020-05-05T11:39:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。