論文の概要: From Black-Box to White-Box: Control-Theoretic Neural Network Interpretability
- arxiv url: http://arxiv.org/abs/2511.12852v1
- Date: Mon, 17 Nov 2025 00:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.583158
- Title: From Black-Box to White-Box: Control-Theoretic Neural Network Interpretability
- Title(参考訳): Black-BoxからWhite-Boxへ:制御理論ニューラルネットワークの解釈可能性
- Authors: Jihoon Moon,
- Abstract要約: 我々は、局所線形化、制御可能性、可観測性グラミアン、ハンケル特異値を用いて、訓練されたニューラルネットワークの内部計算を分析する。
本稿では,1 2 2 1 SwiGLUネットワークと2 3 3 2 GELUネットワークを含む,単純なフィードフォワードネットワークのフレームワークについて説明する。
- 参考スコア(独自算出の注目度): 2.597434421130007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks achieve state of the art performance but remain difficult to interpret mechanistically. In this work, we propose a control theoretic framework that treats a trained neural network as a nonlinear state space system and uses local linearization, controllability and observability Gramians, and Hankel singular values to analyze its internal computation. For a given input, we linearize the network around the corresponding hidden activation pattern and construct a state space model whose state consists of hidden neuron activations. The input state and state output Jacobians define local controllability and observability Gramians, from which we compute Hankel singular values and associated modes. These quantities provide a principled notion of neuron and pathway importance: controllability measures how easily each neuron can be excited by input perturbations, observability measures how strongly each neuron influences the output, and Hankel singular values rank internal modes that carry input output energy. We illustrate the framework on simple feedforward networks, including a 1 2 2 1 SwiGLU network and a 2 3 3 2 GELU network. By comparing different operating points, we show how activation saturation reduces controllability, shrinks the dominant Hankel singular value, and shifts the dominant internal mode to a different subset of neurons. The proposed method turns a neural network into a collection of local white box dynamical models and suggests which internal directions are natural candidates for pruning or constraints to improve interpretability.
- Abstract(参考訳): ディープニューラルネットワークは最先端の性能を達成するが、機械的解釈は困難である。
本研究では、トレーニングされたニューラルネットワークを非線形状態空間システムとして扱い、局所線形化、可制御性および可観測性グラミアン、ハンケル特異値を用いて内部計算を解析する制御理論フレームワークを提案する。
与えられた入力に対して、対応する隠れ活性化パターンのまわりのネットワークを線形化し、隠れニューロンの活性化状態からなる状態空間モデルを構築する。
入力状態と状態出力のヤコビアンは局所制御性と可観測性グラミアンを定義し、そこからハンケル特異値と関連するモードを計算する。
制御性は入力の摂動によって各ニューロンがどれだけ容易に励起できるかを測り、可観測性は各ニューロンが出力にどれほど強く影響するかを測り、ハンケル特異値は入力出力エネルギーを運ぶ内部モードをランク付けする。
本稿では,1 2 2 1 SwiGLUネットワークと2 3 3 2 GELUネットワークを含む,単純なフィードフォワードネットワークのフレームワークについて説明する。
異なる操作点を比較することで、活性化飽和が制御性を低下させ、支配的なハンケル特異値を小さくし、支配的な内部モードを異なるニューロンのサブセットにシフトすることを示す。
提案手法はニューラルネットワークを局所的ホワイトボックス力学モデルの集合に変換し、どの内部方向がプルーニングの自然な候補であるか、あるいは解釈可能性を改善するための制約かを示唆する。
関連論文リスト
- Concept-Guided Interpretability via Neural Chunking [64.6429903327095]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
神経集団レベルで繰り返しチャンクを抽出する3つの方法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - Allostatic Control of Persistent States in Spiking Neural Networks for perception and computation [79.16635054977068]
本稿では,アロスタシスの概念を内部表現の制御に拡張することにより,環境に対する知覚的信念を更新するための新しいモデルを提案する。
本稿では,アトラクタネットワークにおける活動の急増を空間的数値表現として利用する数値認識の応用に焦点を当てる。
論文 参考訳(メタデータ) (2025-03-20T12:28:08Z) - NEUROLOGIC: From Neural Representations to Interpretable Logic Rules [12.231919806775933]
ルールに基づく説明法は、ニューラルネットワークの振る舞いに関する厳密でグローバルに解釈可能な洞察を提供する。
既存のアプローチは、主に小さな完全に接続されたネットワークに限られており、コストのかかるルール抽出と置換プロセスに依存している。
深層ニューラルネットワークから直接解釈可能な論理規則を抽出する新しいフレームワークであるNEUROLOGICを提案する。
論文 参考訳(メタデータ) (2025-01-14T17:57:26Z) - DISCOVER: Making Vision Networks Interpretable via Competition and
Dissection [11.028520416752325]
この研究は、ポストホック解釈可能性、特にネットワーク分割に寄与する。
私たちのゴールは、視覚タスクで訓練されたネットワークにおいて、各ニューロンの個々の機能を容易に発見できるフレームワークを提供することです。
論文 参考訳(メタデータ) (2023-10-07T21:57:23Z) - Approximating nonlinear functions with latent boundaries in low-rank
excitatory-inhibitory spiking networks [5.955727366271805]
スパイクに基づく興奮抑制スパイクネットワークのための新しいフレームワークを考案した。
本研究は,生体スパイクに基づく計算の力学的理解の出発点となるスパイクネットワークの新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-18T15:17:00Z) - And/or trade-off in artificial neurons: impact on adversarial robustness [91.3755431537592]
ネットワークに十分な数のOR様ニューロンが存在すると、分類の脆さと敵の攻撃に対する脆弱性が増加する。
そこで我々は,AND様ニューロンを定義し,ネットワーク内での割合を増大させる対策を提案する。
MNISTデータセットによる実験結果から,本手法はさらなる探索の方向として有望であることが示唆された。
論文 参考訳(メタデータ) (2021-02-15T08:19:05Z) - Non-linear Neurons with Human-like Apical Dendrite Activations [81.18416067005538]
XOR論理関数を100%精度で学習し, 標準的なニューロンに後続のアピーカルデンドライト活性化(ADA)が認められた。
コンピュータビジョン,信号処理,自然言語処理の6つのベンチマークデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-02-02T21:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。