論文の概要: Causal Interpretation of Neural Network Computations with Contribution Decomposition
- arxiv url: http://arxiv.org/abs/2603.06557v1
- Date: Fri, 06 Mar 2026 18:46:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:46.403135
- Title: Causal Interpretation of Neural Network Computations with Contribution Decomposition
- Title(参考訳): 寄与分解によるニューラルネットワーク計算の因果解釈
- Authors: Joshua Brendan Melander, Zaki Alaoui, Shenghua Liu, Surya Ganguli, Stephen A. Baccus,
- Abstract要約: 我々は、隠れたニューロンがどのようにネットワーク出力を駆動するかを直接的に調べる。
CODECは、スパースオートエンコーダを用いて、ネットワークの振る舞いを隠されたニューロンの寄与のスパースモチーフに分解する手法である。
- 参考スコア(独自算出の注目度): 13.992892699439023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how neural networks transform inputs into outputs is crucial for interpreting and manipulating their behavior. Most existing approaches analyze internal representations by identifying hidden-layer activation patterns correlated with human-interpretable concepts. Here we take a direct approach to examine how hidden neurons act to drive network outputs. We introduce CODEC (Contribution Decomposition), a method that uses sparse autoencoders to decompose network behavior into sparse motifs of hidden-neuron contributions, revealing causal processes that cannot be determined by analyzing activations alone. Applying CODEC to benchmark image-classification networks, we find that contributions grow in sparsity and dimensionality across layers and, unexpectedly, that they progressively decorrelate positive and negative effects on network outputs. We further show that decomposing contributions into sparse modes enables greater control and interpretation of intermediate layers, supporting both causal manipulations of network output and human-interpretable visualizations of distinct image components that combine to drive that output. Finally, by analyzing state-of-the-art models of neural activity in the vertebrate retina, we demonstrate that CODEC uncovers combinatorial actions of model interneurons and identifies the sources of dynamic receptive fields. Overall, CODEC provides a rich and interpretable framework for understanding how nonlinear computations evolve across hierarchical layers, establishing contribution modes as an informative unit of analysis for mechanistic insights into artificial neural networks.
- Abstract(参考訳): ニューラルネットワークが入力を出力に変換する方法を理解することは、その振る舞いを解釈し、操作するために重要である。
既存のほとんどの手法は、人間の解釈可能な概念と相関した隠れ層活性化パターンを同定することで内部表現を分析する。
ここでは、隠れたニューロンがどのようにネットワーク出力を駆動するかを直接的に調べる。
CODEC(Contribution Decomposition)は、スパースオートエンコーダを用いて、ネットワークの動作を隠されたニューロンの寄与のスパースモチーフに分解する手法であり、アクティベーションの分析だけでは決定できない因果過程を明らかにする。
画像分類ネットワークのベンチマークにCODECを適用すると、レイヤ間の空間性や次元性においてコントリビューションが増加し、予期せぬことに、ネットワーク出力に対する肯定的および否定的な影響が徐々に減少することがわかった。
さらに,コントリビューションをスパースモードに分解することで,ネットワーク出力の因果操作と,その出力を駆動する異なる画像成分の人間の解釈可能な可視化の両方をサポートする,中間層の制御と解釈がより容易になることを示す。
最後に、脊椎動物網膜における神経活動の最先端モデルを分析することにより、CODECがモデルニューロンの結合作用を明らかにし、動的受容野の源を同定することを示した。
全体として、CODECは階層層を横断して非線形計算がどのように進化するかを理解するためのリッチで解釈可能なフレームワークを提供する。
関連論文リスト
- Representation Understanding via Activation Maximization [13.88866465448849]
本稿では、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の両方に適用可能な統合された特徴可視化フレームワークを提案する。
従来のCNNと現代のViTの両方において、我々のアプローチの有効性を実証し、その一般化可能性と価値を強調した。
論文 参考訳(メタデータ) (2025-08-10T10:36:30Z) - Concept-Guided Interpretability via Neural Chunking [64.6429903327095]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
神経集団レベルで繰り返しチャンクを抽出する3つの方法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。
まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。
我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文 参考訳(メタデータ) (2025-02-03T20:30:46Z) - Manipulating Feature Visualizations with Gradient Slingshots [53.94925202421929]
特徴可視化(FV)は、ディープニューラルネットワーク(DNN)で学んだ概念を解釈するための広く使われている手法である。
本稿では,モデルアーキテクチャを変更したり,性能を著しく劣化させたりすることなくFVの操作を可能にする新しい手法,Gradient Slingshotsを提案する。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Neural Activation Patterns (NAPs): Visual Explainability of Learned
Concepts [8.562628320010035]
本稿では,活性化分布全体を考慮に入れた手法を提案する。
ニューラルネットワーク層の高次元活性化空間内で同様の活性化プロファイルを抽出することにより、同様に扱われる入力のグループを見つける。
これらの入力グループは、ニューラルネットワークアクティベーションパターン(NAP)を表現し、学習された層の概念を視覚化し解釈するために使用することができる。
論文 参考訳(メタデータ) (2022-06-20T09:05:57Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。