論文の概要: Faithful and Stable Neuron Explanations for Trustworthy Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2512.18092v1
- Date: Fri, 19 Dec 2025 21:55:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.186395
- Title: Faithful and Stable Neuron Explanations for Trustworthy Mechanistic Interpretability
- Title(参考訳): 信頼できる機械的解釈性のための忠実で安定なニューロン説明法
- Authors: Ge Yan, Tuomas Oikarinen, Tsui-Wei, Weng,
- Abstract要約: 我々は、ニューロンの同定を機械学習の逆過程と見なすことができると論じている。
信頼と安定という2つの基本的な課題に関する最初の理論的分析を提示する。
合成データと実データの両方の実験により理論的結果が検証され,本手法の有効性が実証された。
- 参考スコア(独自算出の注目度): 2.566497773003048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neuron identification is a popular tool in mechanistic interpretability, aiming to uncover the human-interpretable concepts represented by individual neurons in deep networks. While algorithms such as Network Dissection and CLIP-Dissect achieve great empirical success, a rigorous theoretical foundation remains absent, which is crucial to enable trustworthy and reliable explanations. In this work, we observe that neuron identification can be viewed as the inverse process of machine learning, which allows us to derive guarantees for neuron explanations. Based on this insight, we present the first theoretical analysis of two fundamental challenges: (1) Faithfulness: whether the identified concept faithfully represents the neuron's underlying function and (2) Stability: whether the identification results are consistent across probing datasets. We derive generalization bounds for widely used similarity metrics (e.g. accuracy, AUROC, IoU) to guarantee faithfulness, and propose a bootstrap ensemble procedure that quantifies stability along with BE (Bootstrap Explanation) method to generate concept prediction sets with guaranteed coverage probability. Experiments on both synthetic and real data validate our theoretical results and demonstrate the practicality of our method, providing an important step toward trustworthy neuron identification.
- Abstract(参考訳): ニューロン識別は、ディープネットワークにおいて個々のニューロンによって表現される人間の解釈可能な概念を明らかにすることを目的として、機械的解釈可能性において一般的なツールである。
Network DissectionやCLIP-Dissectといったアルゴリズムは経験的成功をおさめているが、厳密な理論基盤は残っていない。
本研究では,ニューロンの同定を機械学習の逆過程と見なすことができ,ニューロン説明の保証を導出することができることを観察する。
この知見に基づいて,(1) 同定された概念がニューロンの根底にある機能を忠実に表現するかどうか,(2) 安定性: 同定結果が探索データセット間で一貫性があるかどうか,という2つの基本的課題に関する最初の理論的分析を提示する。
信頼性を保証するために広く使われている類似度指標(例えば精度、AUROC、IoU)の一般化境界を導出し、BE(Bootstrap Explanation)法とともに安定性を定量化するブートストラップアンサンブル手順を提案し、カバレッジ確率を保証した概念予測セットを生成する。
合成データと実データの両方の実験は、我々の理論結果を検証し、本手法の実用性を実証し、信頼できるニューロン識別に向けた重要なステップを提供する。
関連論文リスト
- An Orthogonal Learner for Individualized Outcomes in Markov Decision Processes [55.93922317950527]
DRQ-learnerと呼ばれる新しいメタラーナーを開発した。
DRQ-learnerは離散状態空間と連続状態空間の両方の設定に適用できます。
論文 参考訳(メタデータ) (2025-09-30T15:49:29Z) - The Features at Convergence Theorem: a first-principles alternative to the Neural Feature Ansatz for how networks learn representations [16.67524623230699]
主要なアプローチはニューラル・フィーチャー・アンザッツ(NFA)である。
NFAは経験的に検証されているが、教育された推測であり、理論的な基礎が欠落している。
我々は、この観察がなぜ、いつ、そうでないのかを理解するために、第一原理のアプローチをとる。
論文 参考訳(メタデータ) (2025-07-08T03:52:48Z) - Did I Faithfully Say What I Thought? Bridging the Gap Between Neural Activity and Self-Explanations in Large Language Models [14.636536897933786]
大きな言語モデル(LLM)は、その答えを正当化するために、もっともらしい自由テキストの自己説明を生成することができる。
本稿では,LLM自由テキスト自己説明の忠実度を測定するフレキシブルなフレームワークであるNeuroFaithを提案する。
論文 参考訳(メタデータ) (2025-06-10T22:30:53Z) - Utility-Probability Duality of Neural Networks [4.871730595406078]
本稿では,ディープラーニングにおける標準教師あり学習手順に対するユーティリティに基づく代替的説明を提案する。
基本的な考え方は、学習したニューラルネットワークを確率モデルではなく、順序付きユーティリティ関数として解釈することである。
ソフトマックス出力を持つ全てのニューラルネットワークに対して、最大推定値のSGD学習ダイナミクスを反復過程と見なすことができる。
論文 参考訳(メタデータ) (2023-05-24T08:09:07Z) - The Unreasonable Effectiveness of Deep Evidential Regression [72.30888739450343]
不確実性を考慮した回帰ベースニューラルネットワーク(NN)による新しいアプローチは、従来の決定論的手法や典型的なベイズ的NNよりも有望であることを示している。
我々は、理論的欠点を詳述し、合成および実世界のデータセットのパフォーマンスを分析し、Deep Evidential Regressionが正確な不確実性ではなく定量化であることを示す。
論文 参考訳(メタデータ) (2022-05-20T10:10:32Z) - NUQ: Nonparametric Uncertainty Quantification for Deterministic Neural
Networks [151.03112356092575]
本研究では,Nadaraya-Watson の条件付きラベル分布の非パラメトリック推定に基づく分類器の予測の不確かさの測定方法を示す。
種々の実世界の画像データセットにおける不確実性推定タスクにおいて,本手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-07T12:30:45Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z) - Evidential Turing Processes [11.021440340896786]
我々は、明らかなディープラーニング、ニューラルプロセス、ニューラルチューリングマシンのオリジナルの組み合わせを紹介する。
本稿では,3つの画像分類ベンチマークと2つのニューラルネットアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-06-02T15:09:20Z) - Neuro-symbolic Neurodegenerative Disease Modeling as Probabilistic
Programmed Deep Kernels [93.58854458951431]
本稿では、神経変性疾患のパーソナライズされた予測モデリングのための、確率的プログラムによる深層カーネル学習手法を提案する。
我々の分析は、ニューラルネットワークとシンボリック機械学習のアプローチのスペクトルを考慮する。
我々は、アルツハイマー病の予測問題について評価を行い、深層学習を超越した結果を得た。
論文 参考訳(メタデータ) (2020-09-16T15:16:03Z) - Neuro-symbolic Architectures for Context Understanding [59.899606495602406]
本稿では,データ駆動型アプローチと知識駆動型アプローチの強みを組み合わせたフレームワークとして,ハイブリッドAI手法を提案する。
具体的には、知識ベースを用いて深層ニューラルネットワークの学習過程を導く方法として、ニューロシンボリズムの概念を継承する。
論文 参考訳(メタデータ) (2020-03-09T15:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。