論文の概要: Intrinsic training dynamics of deep neural networks
- arxiv url: http://arxiv.org/abs/2508.07370v1
- Date: Sun, 10 Aug 2025 14:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.828511
- Title: Intrinsic training dynamics of deep neural networks
- Title(参考訳): ディープニューラルネットワークの内在的トレーニングダイナミクス
- Authors: Sibylle Marcotte, Gabriel Peyré, Rémi Gribonval,
- Abstract要約: ディープラーニング理論の根本的な課題は、高次元パラメータ空間における勾配に基づくトレーニングが、より単純で低次元の構造によって達成できるかどうかを理解することである。
高次元変数上の勾配フローは、低次元変数 $z = phi(theta)$ 上の固有勾配フローを意味する。
いわゆる本質的動的性質を表現し, 因子化$phi$に関連する保存法則の研究との関連性を示す。
- 参考スコア(独自算出の注目度): 28.287184613608435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental challenge in the theory of deep learning is to understand whether gradient-based training in high-dimensional parameter spaces can be captured by simpler, lower-dimensional structures, leading to so-called implicit bias. As a stepping stone, we study when a gradient flow on a high-dimensional variable $\theta$ implies an intrinsic gradient flow on a lower-dimensional variable $z = \phi(\theta)$, for an architecture-related function $\phi$. We express a so-called intrinsic dynamic property and show how it is related to the study of conservation laws associated with the factorization $\phi$. This leads to a simple criterion based on the inclusion of kernels of linear maps which yields a necessary condition for this property to hold. We then apply our theory to general ReLU networks of arbitrary depth and show that, for any initialization, it is possible to rewrite the flow as an intrinsic dynamic in a lower dimension that depends only on $z$ and the initialization, when $\phi$ is the so-called path-lifting. In the case of linear networks with $\phi$ the product of weight matrices, so-called balanced initializations are also known to enable such a dimensionality reduction; we generalize this result to a broader class of {\em relaxed balanced} initializations, showing that, in certain configurations, these are the \emph{only} initializations that ensure the intrinsic dynamic property. Finally, for the linear neural ODE associated with the limit of infinitely deep linear networks, with relaxed balanced initialization, we explicitly express the corresponding intrinsic dynamics.
- Abstract(参考訳): ディープラーニング理論の根本的な課題は、高次元パラメータ空間における勾配に基づくトレーニングがより単純で低次元の構造によって捕捉できるかどうかを理解することである。
ステップストーンとして、高次元変数 $\theta$ 上の勾配フローが、アーキテクチャ関連の関数 $\phi$ に対して、低次元変数 $z = \phi(\theta)$ 上の固有勾配フローを意味するときの研究を行う。
いわゆる内在的動的性質を表現し、その分解が$\phi$と関連する保存法則の研究とどのように関係しているかを示す。
これにより、この性質を保持するために必要な条件を与える線型写像の核を包含する単純な基準が導かれる。
次に、我々の理論を任意の深さの一般ReLUネットワークに適用し、任意の初期化に対して、$\phi$ がいわゆるパスリフトであるとき、z$ と初期化のみに依存する低次元の内在的力学としてフローを書き換えることができることを示す。
重み行列の積が$\phi$の線形ネットワークの場合、いわゆる平衡初期化(英語版)もそのような次元の減少を可能にすることが知られており、この結果をより広いクラスに一般化し、ある構成において、これらが固有の動的性質を保証するような 'emph{only} 初期化であることを示す。
最後に、無限深度線形ネットワークの極限に付随する線形ニューラルODEに対して、緩和された初期化を伴い、対応する固有力学を明示的に表現する。
関連論文リスト
- The Riemannian Geometry associated to Gradient Flows of Linear Convolutional Networks [4.898188452239539]
線形畳み込みネットワークを学習するための勾配流の幾何学的性質について検討する。
$D geq 2$ の畳み込みと$D = 1$ の畳み込みの場合、畳み込みのいわゆる歩みが 1 より大きい場合、それは成り立つ。
論文 参考訳(メタデータ) (2025-07-08T20:04:00Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - An Embedding of ReLU Networks and an Analysis of their Identifiability [5.076419064097734]
本稿では,任意の深さのReLUニューラルネットワークに対して,スケーリングに不変な$Phi(theta)$を導入している。
我々は、深いReLUネットワークが実際にその実現の知識から局所的に識別できる条件を導出する。
論文 参考訳(メタデータ) (2021-07-20T09:43:31Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - On the Implicit Bias of Initialization Shape: Beyond Infinitesimal
Mirror Descent [55.96478231566129]
学習モデルを決定する上で,相対スケールが重要な役割を果たすことを示す。
勾配流の誘導バイアスを導出する手法を開発した。
論文 参考訳(メタデータ) (2021-02-19T07:10:48Z) - A Unifying View on Implicit Bias in Training Linear Neural Networks [31.65006970108761]
線形ニューラルネットワークトレーニングにおける勾配流(無限小ステップサイズの勾配勾配勾配勾配)の暗黙バイアスについて検討する。
本稿では, ニューラルネットワークのテンソルの定式化について検討し, 完全連結型, 対角型, 畳み込み型ネットワークを特殊な場合として提案する。
論文 参考訳(メタデータ) (2020-10-06T06:08:35Z) - Shallow Univariate ReLu Networks as Splines: Initialization, Loss
Surface, Hessian, & Gradient Flow Dynamics [1.5393457051344297]
本稿では,ReLU NN を連続的な線形スプラインとして再パラメータ化することを提案する。
我々は、その臨界点と固定点、ヘッセンスペクトル、およびヘッセンスペクトルを含む損失面の構造を驚くほど単純かつ透明に表現する。
Splineベースの可視化を使用した学習ダイナミクスのビデオはhttp://shorturl.at/tFWZ2.comで公開されている。
論文 参考訳(メタデータ) (2020-08-04T19:19:49Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。