論文の概要: When Both Layers Learn: Training Dynamics of Representing Linear Models via ReLU Networks
- arxiv url: http://arxiv.org/abs/2606.04476v1
- Date: Wed, 03 Jun 2026 05:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.571519
- Title: When Both Layers Learn: Training Dynamics of Representing Linear Models via ReLU Networks
- Title(参考訳): 両方の層が学ぶとき:ReLUネットワークによる線形モデル表現のトレーニングダイナミクス
- Authors: Berk Tinaz, Changzhi Xie, Mahdi Soltanolkotabi,
- Abstract要約: 線形対象関数に適合する1層ReLUネットワークの両層を協調的にトレーニングするための勾配勾配ダイナミクスについて検討した。
本分析では, 隠れ重みが植え付け方向と漸進的に一致し, 出力重みが正しい符号パターンを維持できるアライメントフェーズを3つのフェーズで追跡する。
我々は,全軌道に沿って保持される新しい一様濃度結果を確立し,次々に最適な試料の複雑性を得るのに不可欠である。
- 参考スコア(独自算出の注目度): 22.81761236732655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the gradient descent dynamics for jointly training both layers of a one-hidden-layer ReLU network to fit a linear target function. Concretely, we consider a realizable setting where inputs are drawn i.i.d. from a Gaussian distribution and labels follow a planted linear model. This stylized framework captures salient features of end-to-end training in inverse problems and certain auto-encoder models. Despite its apparent simplicity, the dynamics remain poorly understood, in part because the loss landscape contains multiple non-strict saddle points, making it unclear why gradient descent from random initialization reliably escapes bad stationary regions. We provide a detailed characterization of the optimization landscape and prove that gradient descent from a moderately small random initialization-simultaneously training both layers-converges to a global minimizer at a linear rate with order-wise optimal sample complexity. Our analysis tracks the trajectory through three phases: an alignment phase in which hidden weights progressively align with the planted direction while the output weights maintain the correct sign pattern; a growth phase in which the norms of both layers increase while preserving alignment; and a local refinement phase in which the aligned neurons rapidly converge to the planted direction, yielding fast local convergence. To rigorously show that GD avoids non-strict saddles, we develop trajectory-level control arguments for the end-to-end dynamics. In addition, we establish novel uniform concentration results that hold along the entire trajectory, and are essential for obtaining order-wise optimal sample complexity. We corroborate our theory with extensive experiments across a range of configurations.
- Abstract(参考訳): 本稿では,線形対象関数に適合する一層ReLUネットワークの両層を協調訓練するための勾配勾配ダイナミクスについて検討する。
具体的には,ガウス分布から入力が抽出され,ラベルが植込み線形モデルに従うような,実現可能な環境を考える。
このスタイリングフレームワークは、逆問題と特定のオートエンコーダモデルにおけるエンドツーエンドトレーニングの健全な特徴をキャプチャする。
明らかな単純さにもかかわらず、損失ランドスケープには複数の非制限サドルポイントが含まれており、なぜランダム初期化からの勾配降下が不規則な定常領域を確実に逃がすのかは不明である。
最適化ランドスケープの詳細な特徴解析を行い、適度に小さなランダム初期化から勾配勾配の勾配勾配が、オーダーワイドの最適なサンプル複雑性を持つ線形速度で、両層を同時に、大域最小化器に学習することを証明する。
本分析では, 隠れ重みが植え込み方向と漸進的に整合するアライメントフェーズと, 出力重みが正しい手形パターンを維持しているアライメントフェーズ, 両階層のノルムが上昇するアライメントフェーズと, アライメントニューロンが植え込み方向に急速に収束し, 高速な局所収束をもたらす局所微細化フェーズの3段階を追尾する。
GDが非制限サドルを避けることを厳密に示すために、我々は、終端から終端のダイナミクスに対する軌道レベルの制御引数を開発する。
さらに, 軌道全体に沿って保持される新しい一様濃度計算結果を確立し, オーダーワイド最適試料の複雑性を得るのに不可欠である。
我々は、様々な構成にわたる広範な実験で理論を裏付ける。
関連論文リスト
- Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。
本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文 参考訳(メタデータ) (2025-12-28T05:48:55Z) - Description of the Training Process of Neural Networks via Ergodic Theorem : Ghost nodes [3.637162892228131]
本稿では、訓練勾配降下(SGD)による深層ニューラルネットワークの理解と加速のための統一的な枠組みを提案する。
我々は,安定剤に対する真の収束を識別する,最も大きなリャプノフ指数の実用診断,実行推定を導入する。
本稿では,補助的なゴースト出力ノードを付加した標準分類器のゴーストカテゴリ拡張を提案する。
論文 参考訳(メタデータ) (2025-07-01T17:54:35Z) - Gradient Descent Converges Linearly to Flatter Minima than Gradient Flow in Shallow Linear Networks [0.0]
本研究では,1つの入力と出力を持つディープ2線形ニューラルネットワークの勾配勾配勾配ダイナミクスについて検討する。
また, GD は, たとえ大きなステップサイズであっても, 訓練損失の最小値に比例して直線的に収束することを示した。
論文 参考訳(メタデータ) (2025-01-15T20:43:36Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality [54.20763128054692]
マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。
我々は,勾配流のダイナミックス中に,興味深い「タスク割り当て」現象が現れることを証明した。
論文 参考訳(メタデータ) (2024-02-29T18:43:52Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On regularization of gradient descent, layer imbalance and flat minima [9.08659783613403]
我々は、解の平坦性を定義する新しい計量-不均衡-を用いて、ディープ線形ネットワークのトレーニングダイナミクスを解析する。
重み付け減衰や雑音データ増大などの異なる正規化手法も同様に振る舞うことを実証する。
論文 参考訳(メタデータ) (2020-07-18T00:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。