論文の概要: Inter-Layer Hessian Analysis of Neural Networks with DAG Architectures
- arxiv url: http://arxiv.org/abs/2604.11639v1
- Date: Mon, 13 Apr 2026 15:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.661787
- Title: Inter-Layer Hessian Analysis of Neural Networks with DAG Architectures
- Title(参考訳): DAGアーキテクチャを用いたニューラルネットワークの層間ヘッセン解析
- Authors: Maxim Bolshim, Alexander Kugaevskikh,
- Abstract要約: 現代の自動微分フレームワーク(JAX, PyTorch)は、層間相互作用の内部構造を公開することなく、損失関数のヘシアンをモノリシックテンソルとして返す。
この理論解析は、経験的ネットワークとスキップスキップ時の接続における共鳴の指数的減衰を説明する。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern automatic differentiation frameworks (JAX, PyTorch) return the Hessian of the loss function as a monolithic tensor, without exposing the internal structure of inter-layer interactions. This paper presents an analytical formalism that explicitly decomposes the full Hessian into blocks indexed by the DAG of an arbitrary architecture. The canonical decomposition $H = H^{GN} + H^T$ separates the Gauss--Newton component (convex part) from the tensor component (residual curvature responsible for saddle points). For piecewise-linear activations (ReLU), the tensor component of the input Hessian vanishes ($H^{T}_{v,w}\!\equiv\!0$ a.e., $H^f_{v,w}\!=\!H^{GN}_{v,w}\!\succeq\!0$); the full parametric Hessian contains residual terms that do not reduce to the GGN. Building on this decomposition, we introduce diagnostic metrics (inter-layer resonance~$\mathcal{R}$, geometric coupling~$\mathcal{C}$, stable rank~$\mathcal{D}$, GN-Gap) that are estimated stochastically in $O(P)$ time and reveal structural curvature interactions between layers. The theoretical analysis explains exponential decay of resonance in vanilla networks and its preservation under skip connections; empirical validation spans fully connected MLPs (Exp.\,1--5) and convolutional architectures (ResNet-18, ${\sim}11$M~parameters, Exp.\,6). When the architecture reduces to a single node, all definitions collapse to the standard Hessian $\nabla^2_θ\mathcal{L}(θ)\in\mathbb{R}^{p\times p}$.
- Abstract(参考訳): 現代の自動微分フレームワーク(JAX, PyTorch)は、層間相互作用の内部構造を公開することなく、損失関数のヘシアンをモノリシックテンソルとして返す。
本稿では,任意のアーキテクチャのDAGによってインデックス付けされたブロックに全ヘッセンを明示的に分解する解析形式について述べる。
標準分解 $H = H^{GN} + H^T$ はガウス-ニュートン成分(凸部分)をテンソル成分(サドル点に対する残留曲率)から分離する。
片方向線形活性化(ReLU)の場合、入力ヘッセンのテンソル成分(H^{T}_{v,w}\!
\equiv\!
0$ a.e., $H^f_{v,w}\!
=\!
H^{GN}_{v,w}\!
succeq!
0$); フルパラメトリック・ヘッセンは GGN に還元されない残余項を含む。
この分解に基づいて、診断指標(層間共鳴~$\mathcal{R}$、幾何結合~$\mathcal{C}$、安定ランク~$\mathcal{D}$、GN-Gap)を導入する。
理論解析では、バニラネットワークにおける共鳴の指数的減衰と、スキップ接続下での保存が説明され、経験的検証は完全に接続されたMLPにまたがる(Exp)。
1--5)と畳み込みアーキテクチャ(ResNet-18, ${\sim}11$M~parameters, Exp)。
6)。
アーキテクチャが単一ノードに還元されると、すべての定義は標準ヘッセンの $\nabla^2_θ\mathcal{L}(θ)\in\mathbb{R}^{p\times p}$ に崩壊する。
関連論文リスト
- On the Superlinear Relationship between SGD Noise Covariance and Loss Landscape Curvature [1.6773271875801752]
グラディエントDescent (SGD) は、損失ランドスケープの局所曲率と相関する異方性雑音を導入し、平坦なミニマに対して最適化を行う。
この仮定は、ディープニューラルネットワークでは通常違反される制約条件下でのみ成立することを示す。
データセット、アーキテクチャ、損失関数にわたる実験は、これらの境界を検証し、ディープラーニングにおけるノイズ-曲率関係を統一的に評価する。
論文 参考訳(メタデータ) (2026-02-05T12:35:13Z) - Expressive Power of Deep Networks on Manifolds: Simultaneous Approximation [2.815765641180636]
境界重みを持つ定数深度$mathrmReLUk-1$ネットワークは、ソボレフ空間内の任意の関数を近似することができることを示す。
また、必要なパラメータ数が対数係数に一致することを示すことで、我々の構成がほぼ最適であることを示す。
論文 参考訳(メタデータ) (2025-09-11T11:28:20Z) - Tensor Decomposition Networks for Fast Machine Learning Interatomic Potential Computations [48.46721044282335]
テンソル分解ネットワーク(TDN)は、計算処理の劇的な高速化と競合する性能を実現する。
1億5500万のDFT計算スナップショットを含む分子緩和データセットPubChemQCRのTDNを評価した。
その結果,TDNは計算処理の劇的な高速化と競合する性能を示した。
論文 参考訳(メタデータ) (2025-07-01T18:46:27Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Detection-Recovery Gap for Planted Dense Cycles [72.4451045270967]
期待帯域幅$n tau$とエッジ密度$p$をエルドホス=R'enyiグラフ$G(n,q)$に植え込むモデルを考える。
低次アルゴリズムのクラスにおいて、関連する検出および回復問題に対する計算しきい値を特徴付ける。
論文 参考訳(メタデータ) (2023-02-13T22:51:07Z) - Neural Collapse in Deep Linear Networks: From Balanced to Imbalanced
Data [12.225207401994737]
大量のパラメータを持つ複雑な系は、収束するまでのトレーニングで同じ構造を持つことを示す。
特に、最終層の特徴がクラス平均に崩壊することが観察されている。
本結果は,最終層の特徴と分類器をベクトルからなる幾何学へ収束させることを示す。
論文 参考訳(メタデータ) (2023-01-01T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。