論文の概要: Explaining Neural Networks with Reasons
- arxiv url: http://arxiv.org/abs/2505.14424v1
- Date: Tue, 20 May 2025 14:32:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.363692
- Title: Explaining Neural Networks with Reasons
- Title(参考訳): ニューラルネットワークの理由を解説する
- Authors: Levin Hornischer, Hannes Leitgeb,
- Abstract要約: 我々の手法は、それぞれのニューロンのベクトルを計算し、その原因ベクトルと呼ばれる。
すると、この理由がベクトルが様々な命題(例えば、入力画像が桁2を描いているという命題や入力プロンプトが負の感情を持っているという命題)に対してどれだけ強く話すかを計算することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a new interpretability method for neural networks, which is based on a novel mathematico-philosophical theory of reasons. Our method computes a vector for each neuron, called its reasons vector. We then can compute how strongly this reasons vector speaks for various propositions, e.g., the proposition that the input image depicts digit 2 or that the input prompt has a negative sentiment. This yields an interpretation of neurons, and groups thereof, that combines a logical and a Bayesian perspective, and accounts for polysemanticity (i.e., that a single neuron can figure in multiple concepts). We show, both theoretically and empirically, that this method is: (1) grounded in a philosophically established notion of explanation, (2) uniform, i.e., applies to the common neural network architectures and modalities, (3) scalable, since computing reason vectors only involves forward-passes in the neural network, (4) faithful, i.e., intervening on a neuron based on its reason vector leads to expected changes in model output, (5) correct in that the model's reasons structure matches that of the data source, (6) trainable, i.e., neural networks can be trained to improve their reason strengths, (7) useful, i.e., it delivers on the needs for interpretability by increasing, e.g., robustness and fairness.
- Abstract(参考訳): 本稿では,理由の数学的・哲学的理論に基づくニューラルネットワークの新しい解釈可能性手法を提案する。
我々の手法は、それぞれのニューロンのベクトルを計算し、その原因ベクトルと呼ばれる。
すると、この理由がベクトルが様々な命題(例えば、入力画像が桁2を描いているという命題や入力プロンプトが負の感情を持っているという命題)に対してどれだけ強く話すかを計算することができる。
これは、論理的視点とベイズ的視点を組み合わせたニューロンとその群を解釈し、多意味性(すなわち、単一ニューロンが複数の概念で考えることができる)を説明できる。
理論上も実証的にも、この手法は哲学的に確立された説明概念に基礎を置いていること、(2)一様、すなわち、共通のニューラルネットワークアーキテクチャとモダリティに適用できること、(3)スケーラブルであること、(3) コンピューティングの理由ベクトルはニューラルネットワークの前方通過のみを伴うこと、(4) 忠実であること、(5) モデルがモデル出力に期待される変化をもたらすこと、(5) モデルの理由構造がデータソースの構造と一致すること、(6) トレーニング可能なこと、すなわち、ニューラルネットワークは、推論強度を改善するためにトレーニングできること、(7) 有用性、すなわち、例えば、強靭性、公正性の向上によって、解釈性のニーズを満たすことができること、などが示される。
関連論文リスト
- Identifying Interpretable Visual Features in Artificial and Biological
Neural Systems [3.604033202771937]
ニューラルネットワークの単一ニューロンはしばしば、個々の直感的に意味のある特徴を表すものとして解釈される。
多くのニューロンは$textitmixed selectivity$、すなわち複数の無関係な特徴を示す。
本稿では、視覚的解釈可能性の定量化と、ネットワークアクティベーション空間における意味のある方向を見つけるためのアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-17T17:41:28Z) - Disentangling Neuron Representations with Concept Vectors [0.0]
本研究の主な貢献は, 異なる特徴をカプセル化した概念ベクトルに多面体ニューロンをアンタングル化する手法である。
評価の結果,概念ベクトルはコヒーレントで人間に理解可能な特徴をエンコードしていることがわかった。
論文 参考訳(メタデータ) (2023-04-19T14:55:31Z) - Detecting Modularity in Deep Neural Networks [8.967870619902211]
ネットワークニューロンの分割によるモジュラリティ評価の問題点を考察する。
本稿では,ニューロンがネットワーク性能にいかに重要かを反映した重要度と,そのニューロンが入力の特徴といかに常に関連しているかを反映したコヒーレンスという2つのプロキシを提案する。
これらの分割は、重みのみに基づくものであっても、重要で一貫性のあるニューロンのグループを明らかにします。
論文 参考訳(メタデータ) (2021-10-13T20:33:30Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - The Causal Neural Connection: Expressiveness, Learnability, and
Inference [125.57815987218756]
構造因果モデル (Structuor causal model, SCM) と呼ばれるオブジェクトは、調査中のシステムのランダムな変動のメカニズムと源の集合を表す。
本稿では, 因果的階層定理 (Thm. 1, Bareinboim et al., 2020) がまだニューラルモデルに対して成り立っていることを示す。
我々はニューラル因果モデル(NCM)と呼ばれる特殊なタイプのSCMを導入し、因果推論に必要な構造的制約をエンコードする新しいタイプの帰納バイアスを定式化する。
論文 参考訳(メタデータ) (2021-07-02T01:55:18Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Neuron-based explanations of neural networks sacrifice completeness and interpretability [67.53271920386851]
我々は、ImageNetで事前訓練されたAlexNetに対して、ニューロンに基づく説明法が完全性と解釈可能性の両方を犠牲にすることを示す。
我々は、最も重要な主成分が、最も重要なニューロンよりも完全で解釈可能な説明を提供することを示す。
この結果から,AlexNet などのネットワークに対する説明手法は,ニューロンを埋め込みの基盤として使用するべきではないことが示唆された。
論文 参考訳(メタデータ) (2020-11-05T21:26:03Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。