論文の概要: On the Convergence of Overparameterized Problems: Inherent Properties of the Compositional Structure of Neural Networks
- arxiv url: http://arxiv.org/abs/2511.09810v1
- Date: Fri, 14 Nov 2025 01:10:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.50036
- Title: On the Convergence of Overparameterized Problems: Inherent Properties of the Compositional Structure of Neural Networks
- Title(参考訳): 過度パラメータ化問題の収束性について:ニューラルネットワークの構成構造の本質的性質
- Authors: Arthur Castello Branco de Oliveira, Dhruv Jatkar, Eduardo Sontag,
- Abstract要約: 本稿では,ニューラルネットワークの構成構造が最適化ランドスケープとトレーニングダイナミクスをどう形成するかを検討する。
グローバル収束特性は、適切な実解析的なコスト関数に対して導出可能であることを示す。
これらの知見が、シグモダルアクティベーションを持つニューラルネットワークにどのように一般化されるかについて議論する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper investigates how the compositional structure of neural networks shapes their optimization landscape and training dynamics. We analyze the gradient flow associated with overparameterized optimization problems, which can be interpreted as training a neural network with linear activations. Remarkably, we show that the global convergence properties can be derived for any cost function that is proper and real analytic. We then specialize the analysis to scalar-valued cost functions, where the geometry of the landscape can be fully characterized. In this setting, we demonstrate that key structural features -- such as the location and stability of saddle points -- are universal across all admissible costs, depending solely on the overparameterized representation rather than on problem-specific details. Moreover, we show that convergence can be arbitrarily accelerated depending on the initialization, as measured by an imbalance metric introduced in this work. Finally, we discuss how these insights may generalize to neural networks with sigmoidal activations, showing through a simple example which geometric and dynamical properties persist beyond the linear case.
- Abstract(参考訳): 本稿では,ニューラルネットワークの構成構造が最適化ランドスケープとトレーニングダイナミクスをどう形成するかを検討する。
過パラメータ化最適化問題に関連する勾配流を解析し、線形活性化を伴うニューラルネットワークのトレーニングとして解釈できる。
注目すべきは、大域収束特性は、適切な実解析的かつ真のコスト関数に対して導出できることである。
次に,スカラー値のコスト関数の解析を専門とし,ランドスケープの幾何学的特徴をフルに評価する。
この設定では、サドル点の位置や安定性などの重要な構造的特徴が、問題固有の詳細ではなく、過度にパラメータ化された表現にのみ依存して、すべての許容されるコストにわたって普遍的であることを示す。
また,本研究で導入された不均衡測定値から,初期化に応じて収束を任意に加速できることを示す。
最後に、これらの知見がSigmoidal activationsを持つニューラルネットワークにどのように一般化されるかについて議論し、幾何学的および力学的性質が線形の場合を超えて持続する簡単な例を示す。
関連論文リスト
- Why Neural Network Can Discover Symbolic Structures with Gradient-based Training: An Algebraic and Geometric Foundation for Neurosymbolic Reasoning [73.18052192964349]
我々は、連続的なニューラルネットワークトレーニングのダイナミックスから、離散的なシンボル構造が自然に現れるかを説明する理論的枠組みを開発する。
ニューラルパラメータを測度空間に上げ、ワッサーシュタイン勾配流としてモデル化することにより、幾何的制約の下では、パラメータ測度 $mu_t$ が2つの同時現象となることを示す。
論文 参考訳(メタデータ) (2025-06-26T22:40:30Z) - Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - Convergence of Gradient Descent for Recurrent Neural Networks: A Nonasymptotic Analysis [16.893624100273108]
教師付き学習環境において,勾配降下を訓練した斜め隠れ重み行列を用いた繰り返しニューラルネットワークの解析を行った。
我々は,パラメータ化を伴わずに勾配降下が最適性を実現することを証明した。
この結果は、繰り返しニューラルネットワークによって近似および学習できる力学系のクラスを明示的に評価することに基づいている。
論文 参考訳(メタデータ) (2024-02-19T15:56:43Z) - Neural Characteristic Activation Analysis and Geometric Parameterization for ReLU Networks [2.2713084727838115]
本稿では,個々のニューロンの特徴的活性化境界を調べることによって,ReLUネットワークのトレーニングダイナミクスを解析するための新しいアプローチを提案する。
提案手法は,コンバージェンス最適化におけるニューラルネットワークのパラメータ化と正規化において重要な不安定性を示し,高速収束を阻害し,性能を損なう。
論文 参考訳(メタデータ) (2023-05-25T10:19:13Z) - Exploring the Complexity of Deep Neural Networks through Functional Equivalence [1.3597551064547502]
本稿では,ニューラルネットワークの複雑性を低減できることを示す,ディープニューラルネットワークの被覆数に縛られた新しい手法を提案する。
ネットワーク幅の増大により有効パラメータ空間の容量が減少するので、パラメータ化ネットワーク上でのトレーニングが容易になる傾向があるため、関数同値の利点が最適化されることを実証する。
論文 参考訳(メタデータ) (2023-05-19T04:01:27Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。
正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。
高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文 参考訳(メタデータ) (2020-02-25T23:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。