論文の概要: Description of the Training Process of Neural Networks via Ergodic Theorem : Ghost nodes
- arxiv url: http://arxiv.org/abs/2507.01003v1
- Date: Tue, 01 Jul 2025 17:54:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.77391
- Title: Description of the Training Process of Neural Networks via Ergodic Theorem : Ghost nodes
- Title(参考訳): エルゴディック理論によるニューラルネットワークの学習過程の記述 : ゴーストノード
- Authors: Eun-Ji Park, Sangwon Yun,
- Abstract要約: 本稿では、降下勾配による深層ニューラルネットワークのトレーニングの理解と促進のための統一的なフレームワークを提案する。
そこで本研究では, 真収束を識別する大規模リャプノフの実用診断, 実行推定について紹介する。
次に、補助的なゴースト出力ノードを追加する標準指数に対するゴーストカテゴリ拡張を提案する。
- 参考スコア(独自算出の注目度): 3.637162892228131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have proposed interpreting the training process from an ergodic perspective. Building on this foundation we present a unified framework for understanding and accelerating the training of deep neural networks via stochastic gradient descent. By analyzing the geometric landscape of the objective function we introduce a practical diagnostic, the running estimate of the largest Lyapunov exponent, which provably distinguishes genuine convergence toward stable minimizers from mere statistical stabilization near saddle points. We then propose a ghost category extension for standard classifiers that adds auxiliary ghost output nodes so the model gains extra descent directions that open a lateral corridor around narrow loss barriers and enable the optimizer to bypass poor basins during the early training phase. We show that this extension strictly reduces approximation error and that after sufficient convergence the ghost dimensions collapse and the extended model's invariant law coincides with that of the original and there exists a path in the enlarged parameter space along which the total loss does not increase while the original loss decreases by an arbitrary margin. Taken together these results provide a principled architecture level intervention that accelerates early stage trainability while preserving asymptotic behavior.
- Abstract(参考訳): 近年の研究では、エルゴード的な視点からトレーニングプロセスの解釈が提案されている。
この基盤を基盤として,確率勾配降下による深層ニューラルネットワークの学習の理解と促進のための統一的な枠組みを提案する。
目的関数の幾何学的景観を解析することにより,サドル点付近の統計的安定化から安定な最小値への真の収束を確実に区別する,最大のリャプノフ指数のランニング推定法である実用診断を導入する。
次に,補助的なゴースト出力ノードを付加した標準分類器のゴーストカテゴリ拡張を提案する。
この拡張は、近似誤差を厳密に低減し、十分に収束した後、ゴースト次元が崩壊し、拡張モデルの不変法則が元のものと一致し、元の損失が任意のマージンで減少する一方で、全体の損失が増加しない拡張パラメータ空間に経路が存在することを示す。
これらの結果をまとめると、アーキテクチャレベルの介入が原則となり、漸近的な振る舞いを保ちながら、早期のトレーニング容易性を加速する。
関連論文リスト
- On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - On the Impact of Overparameterization on the Training of a Shallow
Neural Network in High Dimensions [0.0]
本研究では,2次活性化関数と2次コストを持つ浅部ニューラルネットワークのトレーニングダイナミクスについて検討する。
同じニューラルアーキテクチャに関する以前の研究と並行して、集団リスクの勾配流に従って最適化を行う。
論文 参考訳(メタデータ) (2023-11-07T08:20:31Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Provable Accelerated Convergence of Nesterov's Momentum for Deep ReLU
Neural Networks [12.763567932588591]
ニューラルネットワークのトレーニングにおける勾配勾配勾配の収束に関する現状分析は、損失景観の特性を特徴づけることに重点を置いている。
我々は、パラメータのサブセットだけが強い凸性を満たす新しい目的関数のクラスを考え、理論においてネステロフの運動量加速度を示す。
我々は、問題クラスの2つの実現法を提供し、そのうちの1つはディープ ReLU ネットワークであり、これは、私たちの知識を最大限に活用するために、非自明なニューラルネットワークアーキテクチャに対する加速収束率を証明する最初の方法である。
論文 参考訳(メタデータ) (2023-06-13T19:55:46Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。