論文の概要: Criticality and Saturation in Orthogonal Neural Networks
- arxiv url: http://arxiv.org/abs/2605.06563v1
- Date: Thu, 07 May 2026 16:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.014685
- Title: Criticality and Saturation in Orthogonal Neural Networks
- Title(参考訳): 直交ニューラルネットワークの臨界性と飽和
- Authors: Max Guillen, Jan E. Gerken,
- Abstract要約: ネットワーク統計の有限幅展開に現れるテンソルに対して、明示的な階層的再帰関係を導出する。
我々は, 有限幅テンソルの安定性を再現し, 固定点が消滅した活性化関数に対して観測した。
- 参考スコア(独自算出の注目度): 4.128256616073279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has been known for a long time that initializing weight matrices to be orthogonal instead of having i.i.d. Gaussian components can improve training performance. This phenomenon can be analyzed using finite-width corrections, where the infinite-width statistics are supplemented by a power series in $1/\mathrm{width}$. In particular, recent empirical results by Day et al. show that the tensors appearing in this treatment stabilize for large depth, as opposed to the tensors of i.i.d.-initialized networks. In this article, we derive explicit layer-wise recursion relations for the tensors appearing in the finite-width expansion of the network statistics in the case of orthogonal initializations. We also provide an extension of recently-introduced Feynman diagrams for the corresponding recursions in the i.i.d.-case which are valid to all orders in $1/\mathrm{width}$. Finally, we show explicitly that the recursions we derive reproduce the stability of the finite-width tensors which was observed for activation functions with vanishing fixed point. This work therefore provides a theoretical explanation for the stability of nonlinear networks of finite width initialized with orthogonal weights, closing a long-standing gap in the literature. We validate our theoretical results experimentally by showing that numerical solutions of our recursion relations and their analytical large-depth expansions agree excellently with Monte-Carlo estimates from network ensembles.
- Abstract(参考訳): ウェイト行列の初期化がガウス成分ではなく直交であることは、長年にわたって知られている。
この現象は有限幅補正を用いて解析することができ、無限幅統計は1/\mathrm{width}$のパワー級数によって補足される。
特に、Day et al による最近の経験的結果は、この処理で現れるテンソルは、i.d.初期化ネットワークのテンソルとは対照的に、大きな深さで安定であることを示している。
本稿では、直交初期化の場合のネットワーク統計の有限幅展開に現れるテンソルについて、明示的な階層的再帰関係を導出する。
我々はまた、最近導入されたファインマン図形の、i.d.-ケースの対応する再帰に対する拡張も提供し、これは 1/\mathrm{width}$ の全ての順序に有効である。
最後に,不動点を持つ活性化関数に対して観測された有限幅テンソルの安定性を再現することを明らかにする。
この研究は、直交重みで初期化された有限幅の非線形ネットワークの安定性の理論的な説明を与え、文学における長年のギャップを埋める。
我々は,再帰関係と解析的大深度展開の数値解が,ネットワークアンサンブルからのモンテカルロ推定と良好に一致することを示すことにより,理論的結果を実験的に検証した。
関連論文リスト
- Low-Rank Tensor Recovery via Variational Schatten-p Quasi-Norm and Jacobian Regularization [49.85875869048434]
暗黙的神経表現のためのニューラルネットワークによりパラメータ化されたCPベースの低ランクテンソル関数を提案する。
本研究では、スペーサーCP分解を実現するために、冗長なランク1成分に変分Schatten-p quasi-normを導入する。
滑らか性のために、ヤコビアンとハッチンソンのトレース推定器のスペクトルノルムに基づく正規化項を提案する。
論文 参考訳(メタデータ) (2025-06-27T11:23:10Z) - Genus expansion for non-linear random matrix ensembles with applications to neural networks [3.801509221714223]
本研究では,ある非線形ランダム行列アンサンブルと関連するランダムニューラルネットワークを統一的に研究する手法を提案する。
我々は、ファア・ディ・ブルーノの公式を任意の数の合成に一般化するニューラルネットワークに対して、新しい級数展開を用いる。
応用として、ランダムな重みを持つニューラルネットワークについて、いくつかの結果を証明した。
論文 参考訳(メタデータ) (2024-07-11T12:58:07Z) - Tensor cumulants for statistical inference on invariant distributions [49.80012009682584]
我々は,PCAが信号の大きさの臨界値で計算的に困難になることを示す。
我々は、与えられた次数の不変量に対して明示的でほぼ直交的な基底を与える新しい対象の集合を定義する。
また、異なるアンサンブルを区別する新しい問題も分析できます。
論文 参考訳(メタデータ) (2024-04-29T14:33:24Z) - Feature Learning and Generalization in Deep Networks with Orthogonal Weights [1.7956122940209063]
独立なガウス分布からの数値的な重みを持つディープニューラルネットワークは臨界に調整することができる。
これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示す。
行列のアンサンブルから得られるタン・アクティベーションと重みを持つ長方形のネットワークが、それに対応する事前アクティベーション・揺らぎを持つことを示す。
論文 参考訳(メタデータ) (2023-10-11T18:00:02Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。