論文の概要: Gradient Descent as a Perceptron Algorithm: Understanding Dynamics and Implicit Acceleration
- arxiv url: http://arxiv.org/abs/2512.11587v1
- Date: Fri, 12 Dec 2025 14:16:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.796934
- Title: Gradient Descent as a Perceptron Algorithm: Understanding Dynamics and Implicit Acceleration
- Title(参考訳): パーセプトロンアルゴリズムとしてのグラディエントDescent:ダイナミックスとインプシットアクセラレーションの理解
- Authors: Alexander Tyurin,
- Abstract要約: 勾配降下(GD)のステップが一般化されたパーセプトロンアルゴリズムのステップに還元されることを示す。
これは、ニューラルネットワークで観測される最適化力学と暗黙の加速現象を説明するのに役立つ。
- 参考スコア(独自算出の注目度): 67.12978375116599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even for the gradient descent (GD) method applied to neural network training, understanding its optimization dynamics, including convergence rate, iterate trajectories, function value oscillations, and especially its implicit acceleration, remains a challenging problem. We analyze nonlinear models with the logistic loss and show that the steps of GD reduce to those of generalized perceptron algorithms (Rosenblatt, 1958), providing a new perspective on the dynamics. This reduction yields significantly simpler algorithmic steps, which we analyze using classical linear algebra tools. Using these tools, we demonstrate on a minimalistic example that the nonlinearity in a two-layer model can provably yield a faster iteration complexity $\tilde{O}(\sqrt{d})$ compared to $Ω(d)$ achieved by linear models, where $d$ is the number of features. This helps explain the optimization dynamics and the implicit acceleration phenomenon observed in neural networks. The theoretical results are supported by extensive numerical experiments. We believe that this alternative view will further advance research on the optimization of neural networks.
- Abstract(参考訳): ニューラルネットワークトレーニングに適用された勾配降下法(GD)においても、収束率、反復軌道、関数値の発振、特にその暗黙的な加速度など、最適化のダイナミクスを理解することは難しい問題である。
非線形モデルをロジスティック損失で解析し、GDのステップが一般化パーセプトロンアルゴリズムのステップに還元されることを示し(Rosenblatt, 1958)、力学の新しい視点を提供する。
この還元は、古典的線形代数ツールを用いて解析するアルゴリズム的なステップを著しく単純化する。
これらのツールを用いて、2層モデルにおける非線形性は、より高速な反復複雑性$\tilde{O}(\sqrt{d})$に対して、線型モデルで達成された$Ω(d)$に対して$d$が特徴数であることを示す。
これは、ニューラルネットワークで観測される最適化力学と暗黙の加速現象を説明するのに役立つ。
理論結果は広範な数値実験によって支持される。
この見方は、ニューラルネットワークの最適化の研究をさらに前進させるものと信じている。
関連論文リスト
- Convergence of Stochastic Gradient Methods for Wide Two-Layer Physics-Informed Neural Networks [0.6319731355340598]
実際には、ニューラルネットワークをトレーニングするために勾配降下型アルゴリズムを使うことが多い。
本研究では,高確率の意味での活性化関数の一般クラスに対して,過大化された2層PINNの訓練における勾配降下/流れの線形収束性を確立する。
論文 参考訳(メタデータ) (2025-08-29T12:25:51Z) - Dynamical Decoupling of Generalization and Overfitting in Large Two-Layer Networks [10.591718074748895]
本研究では,2層ニューラルネットワークの動的平均場理論による学習ダイナミクスについて検討する。
大きなネットワーク幅$m$と入力次元$n/d$あたりのサンプル数に対して、トレーニングダイナミクスは時間スケールの分離を示す。
論文 参考訳(メタデータ) (2025-02-28T17:45:26Z) - Optimization Insights into Deep Diagonal Linear Networks [10.395029724463672]
直交ニューラルネットワークのパラメータを推定するための勾配流"アルゴリズム"の暗黙的正規化特性について検討した。
我々の主な貢献は、この勾配流がモデル上のミラーフローを動的に誘導することであり、これは問題の特定の解に偏っていることを意味する。
論文 参考訳(メタデータ) (2024-12-21T20:23:47Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Neural Dynamic Mode Decomposition for End-to-End Modeling of Nonlinear
Dynamics [49.41640137945938]
ニューラルネットワークに基づくリフト関数を推定するためのニューラルダイナミックモード分解法を提案する。
提案手法により,予測誤差はニューラルネットワークとスペクトル分解によって逆伝搬される。
提案手法の有効性を,固有値推定と予測性能の観点から実証した。
論文 参考訳(メタデータ) (2020-12-11T08:34:26Z) - A Dynamical View on Optimization Algorithms of Overparameterized Neural
Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。
その結果、ニューラルネットワークの収束挙動を利用することができる。
このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文 参考訳(メタデータ) (2020-10-25T17:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。