論文の概要: Tracking Equivalent Mechanistic Interpretations Across Neural Networks
- arxiv url: http://arxiv.org/abs/2603.30002v1
- Date: Tue, 31 Mar 2026 16:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.937842
- Title: Tracking Equivalent Mechanistic Interpretations Across Neural Networks
- Title(参考訳): ニューラルネットワーク間の等価機械的解釈の追跡
- Authors: Alan Sun, Mariya Toneva,
- Abstract要約: 機械的解釈可能性(MI)は、ニューラルネットワークを解釈するための新たなフレームワークである。
可能な実装がすべて同値であれば,モデルの2つの解釈が等価である,という原則を提案し,定式化する。
我々は、モデルのアルゴリズム解釈、回路、表現を同時に関連付ける保証を提供する。
- 参考スコア(独自算出の注目度): 13.885265796951705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability (MI) is an emerging framework for interpreting neural networks. Given a task and model, MI aims to discover a succinct algorithmic process, an interpretation, that explains the model's decision process on that task. However, MI is difficult to scale and generalize. This stems in part from two key challenges: there is no precise notion of a valid interpretation; and, generating interpretations is often an ad hoc process. In this paper, we address these challenges by defining and studying the problem of interpretive equivalence: determining whether two different models share a common interpretation, without requiring an explicit description of what that interpretation is. At the core of our approach, we propose and formalize the principle that two interpretations of a model are equivalent if all of their possible implementations are also equivalent. We develop an algorithm to estimate interpretive equivalence and case study its use on Transformer-based models. To analyze our algorithm, we introduce necessary and sufficient conditions for interpretive equivalence based on models' representation similarity. We provide guarantees that simultaneously relate a model's algorithmic interpretations, circuits, and representations. Our framework lays a foundation for the development of more rigorous evaluation methods of MI and automated, generalizable interpretation discovery methods.
- Abstract(参考訳): 機械的解釈可能性(MI)は、ニューラルネットワークを解釈するための新たなフレームワークである。
タスクとモデルが与えられた場合、MIは、そのタスクにおけるモデルの意思決定プロセスを説明する簡潔なアルゴリズムプロセス、解釈を発見することを目的としている。
しかし、MIはスケールと一般化が難しい。
これは、有効な解釈の正確な概念が存在しないことと、解釈の生成がしばしばアドホックなプロセスである、という2つの主要な課題に由来する。
本稿では,2つの異なるモデルが共通の解釈を共有しているかどうかを,その解釈が何であるかを明確に記述することなく決定する,解釈等価性(interpretive equivalence)の問題を定義・研究することで,これらの課題に対処する。
提案手法の核となるのは,モデルの2つの解釈がすべて同値である場合,モデルの2つの解釈が等価である,という原理を提唱・定式化することである。
解釈等価性を推定するアルゴリズムを開発し,トランスフォーマーモデルを用いたケーススタディを行った。
提案アルゴリズムを解析するために,モデル表現の類似性に基づく解釈等価性の必要十分条件を導入する。
我々は、モデルのアルゴリズム解釈、回路、表現を同時に関連付ける保証を提供する。
我々のフレームワークは、MIのより厳密な評価方法と、自動化された一般化可能な解釈発見方法の開発の基礎を築いている。
関連論文リスト
- Neural Interpretable Reasoning [12.106771300842945]
ディープラーニングにおける解釈可能性を実現するための新しいモデリングフレームワークを定式化する。
この複雑性はマルコフ的性質として解釈可能性を扱うことにより緩和できることを示す。
我々はニューラルジェネレーションと解釈可能な実行という新しいモデリングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:33:24Z) - Hard to Explain: On the Computational Hardness of In-Distribution Model Interpretation [0.9558392439655016]
機械学習(ML)モデルを解釈する能力はますます不可欠になりつつある。
近年の研究では、様々なモデルの意思決定を説明する計算複雑性を研究することにより、解釈可能性について正式に評価することが可能であることが示されている。
論文 参考訳(メタデータ) (2024-08-07T17:20:52Z) - Validating Mechanistic Interpretations: An Axiomatic Approach [28.336108192282737]
我々は,機械的解釈を,分析対象のニューラルネットワークのセマンティクスを概ね合成的に捉えた記述として公式に特徴づける公理の集合を与える。
本研究は, 既知2-SAT問題の解法をトレーニングしたTransformer-based modelを含む新しいケーススタディと同様に, 既知2-SAT問題に対する機械論的解釈の検証にこれらの公理の適用性を示す。
論文 参考訳(メタデータ) (2024-07-18T15:32:44Z) - FICNN: A Framework for the Interpretation of Deep Convolutional Neural
Networks [0.0]
本研究の目的は,視覚データから学習したCNNモデルを対象とした解釈手法の研究のためのフレームワークを提案することである。
提案する要因のごく一部と組み合わせが実際に研究されていることを,我々のフレームワークが強調する。
論文 参考訳(メタデータ) (2023-05-17T10:59:55Z) - Evaluating the Robustness of Interpretability Methods through
Explanation Invariance and Equivariance [72.50214227616728]
解釈可能性法は、それらの説明が説明されたモデルを忠実に記述した場合にのみ有用である。
特定の対称性群の下で予測が不変であるニューラルネットワークを考える。
論文 参考訳(メタデータ) (2023-04-13T17:59:03Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - On the Faithfulness Measurements for Model Interpretations [100.2730234575114]
ポストホックな解釈は、自然言語処理(NLP)モデルがどのように予測を行うかを明らかにすることを目的とする。
これらの問題に取り組むために,我々は,削除基準,解釈の感度,解釈の安定性という3つの基準から始める。
これらの忠実性概念のデシデラタムに動機づけられ、敵対的領域からのテクニックを採用する新しい解釈方法のクラスを導入する。
論文 参考訳(メタデータ) (2021-04-18T09:19:44Z) - Interpretable Deep Learning: Interpretations, Interpretability,
Trustworthiness, and Beyond [49.93153180169685]
一般に混同される2つの基本的な概念(解釈と解釈可能性)を紹介・明らかにする。
我々は,新しい分類法を提案することにより,異なる視点から,最近のいくつかの解釈アルゴリズムの設計を詳細に述べる。
信頼される」解釈アルゴリズムを用いてモデルの解釈可能性を評価する上での既存の作業をまとめる。
論文 参考訳(メタデータ) (2021-03-19T08:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。