論文の概要: Pulling Back the Curtain on ReLU Networks
- arxiv url: http://arxiv.org/abs/2507.22832v3
- Date: Thu, 04 Sep 2025 15:05:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 14:03:58.881808
- Title: Pulling Back the Curtain on ReLU Networks
- Title(参考訳): ReLUネットワークでカーテンを取り戻す
- Authors: Maciej Satkiewicz,
- Abstract要約: より深いニューロンの勾配は ミスアライメントで知られています ネットワークの内部表現を曖昧にします
この直観は後方通過のみにソフトゲーティングを適用して検証する。
結果として得られた変化した勾配は「励起プルバック」と呼ばれ、顕著な知覚的アライメントを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since any ReLU network is piecewise affine, its hidden units can be characterized by their pullbacks through the active subnetwork, i.e., by their gradients (up to bias terms). However, gradients of deeper neurons are notoriously misaligned, which obscures the network's internal representations. We posit that models do align gradients with data, yet this is concealed by the intrinsic noise of the ReLU hard gating. We validate this intuition by applying soft gating in the backward pass only, reducing the local impact of weakly excited neurons. The resulting modified gradients, which we call "excitation pullbacks", exhibit striking perceptual alignment on a number of ImageNet-pretrained architectures, while the rudimentary pixel-space gradient ascent quickly produces easily interpretable input- and target-specific features. Inspired by these findings, we formulate the "path stability" hypothesis, claiming that the binary activation patterns largely stabilize during training and get encoded in the pre-activation distribution of the final model. When true, excitation pullbacks become aligned with the gradients of a kernel machine that mainly determines the network's decision. This provides a theoretical justification for the apparent faithfulness of the feature attributions based on these pullbacks, potentially even leading to mechanistic interpretability of deeper models. Incidentally, we give a possible explanation for the effectiveness of Batch Normalization and Deep Features, together with a novel perspective on the network's internal memory and generalization properties. We release the code and an interactive app for easier exploration of the excitation pullbacks.
- Abstract(参考訳): 任意のReLUネットワークは断片的にアフィンであるため、その隠れたユニットはアクティブなサブネットワークを通じて引き戻し、すなわち勾配(バイアス項まで)によって特徴付けられる。
しかし、より深い神経細胞の勾配は不一致で、ネットワークの内部表現を曖昧にしている。
モデルが勾配をデータと整合させると仮定するが、これはReLUハードゲーティングの本質的なノイズによって隠蔽される。
後方通過のみにソフトゲーティングを適用することで、この直感を検証し、弱い励起ニューロンの局所的影響を低減した。
改良された勾配は「励起プルバック」と呼ばれ、多数のImageNet事前制約されたアーキテクチャに顕著なアライメントを示す一方、初歩的なピクセル空間勾配の上昇は容易に解釈可能な入力やターゲット固有の特徴を生成する。
これらの知見に触発されて、我々は「経路安定性」仮説を定式化し、二項活性化パターンはトレーニング中に大きく安定し、最終モデルの事前活性化分布に符号化されると主張した。
真になったら、励起プルバックは、主にネットワークの決定を決定するカーネルマシンの勾配に整合する。
このことは、これらの引き戻しに基づく特徴属性の明らかな忠実さを理論的に正当化し、より深いモデルの機械的解釈可能性につながる可能性がある。
また,Batch NormalizationとDeep Featuresの有効性について,ネットワークの内部メモリと一般化特性の新たな視点とともに解説する。
コードとインタラクティブなアプリをリリースして、励起プルバックの探究を簡単にします。
関連論文リスト
- Concept-Guided Interpretability via Neural Chunking [54.73787666584143]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
本稿では,ラベルの可利用性と次元性に基づいて,これら新たな実体を抽出する3つの手法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - Make Haste Slowly: A Theory of Emergent Structured Mixed Selectivity in Feature Learning ReLU Networks [16.83151955540625]
有限ReLUネットワークにおける特徴学習理論への一歩を踏み出した。
ノード再利用と学習速度のバイアスにより,構造化された混合選択潜在表現が出現することを示す。
論文 参考訳(メタデータ) (2025-03-08T11:47:33Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Neural Network Pruning by Gradient Descent [7.427858344638741]
我々は,Gumbel-Softmaxテクニックを取り入れた,新しい,かつ簡単なニューラルネットワークプルーニングフレームワークを提案する。
ネットワークパラメータの0.15%しか持たないMNISTデータセット上で、高い精度を維持しながら、例外的な圧縮能力を実証する。
我々は,ディープラーニングプルーニングと解釈可能な機械学習システム構築のための,有望な新たな道を開くと信じている。
論文 参考訳(メタデータ) (2023-11-21T11:12:03Z) - Interpretable Mesomorphic Networks for Tabular Data [25.76214343259399]
我々は,深度と線形性の両方を同時に備えた,解釈可能なニューラルネットワークの新たなクラスを提案する。
我々は、ディープ・ハイパーネットワークを最適化し、インスタンス毎に説明可能な線形モデルを生成する。
論文 参考訳(メタデータ) (2023-05-22T14:41:17Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Clustering-Based Interpretation of Deep ReLU Network [17.234442722611803]
我々はReLU関数の非線形挙動が自然なクラスタリングを引き起こすことを認識している。
本稿では,完全連結フィードフォワードReLUニューラルネットワークの解釈可能性を高める手法を提案する。
論文 参考訳(メタデータ) (2021-10-13T09:24:11Z) - Predify: Augmenting deep neural networks with brain-inspired predictive
coding dynamics [0.5284812806199193]
我々は神経科学の一般的な枠組みからインスピレーションを得た:「予測コーディング」
本稿では、この戦略をVGG16とEfficientNetB0という2つの人気ネットワークに実装することで、様々な汚職に対する堅牢性を向上させることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:48:13Z) - Explain by Evidence: An Explainable Memory-based Neural Network for
Question Answering [41.73026155036886]
本稿では,エビデンスに基づくメモリネットワークアーキテクチャを提案する。
データセットを要約し、その決定を下すための証拠を抽出することを学ぶ。
本モデルは,2つの質問応答データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-05T21:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。