論文の概要: On the Rate of Convergence of GD in Non-linear Neural Networks: An Adversarial Robustness Perspective
- arxiv url: http://arxiv.org/abs/2603.02095v1
- Date: Mon, 02 Mar 2026 17:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.000557
- Title: On the Rate of Convergence of GD in Non-linear Neural Networks: An Adversarial Robustness Perspective
- Title(参考訳): 非線形ニューラルネットワークにおけるGDの収束速度について:対向ロバスト性の観点から
- Authors: Guy Smorodinsky, Sveta Gimpleson, Itay Safran,
- Abstract要約: グラディエント・Descent (GD) の収束ダイナミクスを最小二項分類設定で検討する。
我々は、GDが最適ロバスト性マージンにうまく収束する一方で、この収束は禁断的に遅い速度で起こることを証明した。
我々の理論的保証は、モデルの異なるアクティベーションパターン間でのGD軌道の厳密な解析を通じて導出される。
- 参考スコア(独自算出の注目度): 2.268525139011456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the convergence dynamics of Gradient Descent (GD) in a minimal binary classification setting, consisting of a two-neuron ReLU network and two training instances. We prove that even under these strong simplifying assumptions, while GD successfully converges to an optimal robustness margin, effectively maximizing the distance between the decision boundary and the training points, this convergence occurs at a prohibitively slow rate, scaling strictly as $Θ(1/\ln(t))$. To the best of our knowledge, this establishes the first explicit lower bound on the convergence rate of the robustness margin in a non-linear model. Through empirical simulations, we further demonstrate that this inherent failure mode is pervasive, exhibiting the exact same tight convergence rate across multiple natural network initializations. Our theoretical guarantees are derived via a rigorous analysis of the GD trajectories across the distinct activation patterns of the model. Specifically, we develop tight control over the system's dynamics to bound the trajectory of the decision boundary, overcoming the primary technical challenge introduced by the non-linear nature of the architecture.
- Abstract(参考訳): 2つのニューロンReLUネットワークと2つのトレーニングインスタンスからなる最小のバイナリ分類設定において、グラディエント・ディキセント(GD)の収束ダイナミクスについて検討する。
これらの強い単純化された仮定の下でも、GD は最適ロバスト性マージンに収束し、決定境界と訓練点の間の距離を効果的に最大化する一方で、この収束は禁断的に遅い速度で起こり、厳密に$ 1/\ln(t))$としてスケールする。
我々の知る限りでは、これは非線形モデルにおけるロバストネスマージンの収束率に関する最初の明示的な下界を確立する。
経験的シミュレーションにより、この固有の障害モードが広範に広まっており、複数の自然ネットワークの初期化に対して全く同じ密収束率を示すことが示される。
我々の理論的保証は、モデルの異なるアクティベーションパターン間でのGD軌道の厳密な解析を通じて導出される。
具体的には、決定境界の軌道を束縛するシステムのダイナミクスを厳格に制御し、アーキテクチャの非線形性によってもたらされる主要な技術的課題を克服する。
関連論文リスト
- Towards a Unified Analysis of Neural Networks in Nonparametric Instrumental Variable Regression: Optimization and Generalization [66.08522228989634]
非パラメトリックインスツルメンタル変数回帰(NPIV)における2段階最小二乗法(2SLS)アプローチのためのニューラルネットワークの最初の大域収束結果を確立する。
これは平均場ランゲヴィンダイナミクス(MFLD)を通して持ち上げられた視点を採用することで達成される。
論文 参考訳(メタデータ) (2025-11-18T17:51:17Z) - Certified Neural Approximations of Nonlinear Dynamics [51.01318247729693]
安全クリティカルな文脈では、神経近似の使用は、基礎となるシステムとの密接性に公式な境界を必要とする。
本稿では,認証された一階述語モデルに基づく新しい,適応的で並列化可能な検証手法を提案する。
論文 参考訳(メタデータ) (2025-05-21T13:22:20Z) - Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [4.554284689395686]
暗黙的勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)アルゴリズムより優れている。
IGDは線形収束速度で大域的最適解に収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Compositional Curvature Bounds for Deep Neural Networks [7.373617024876726]
安全クリティカルなアプリケーションにおけるニューラルネットワークの普及を脅かす重要な課題は、敵の攻撃に対する脆弱性である。
本研究では, 連続的に微分可能な深層ニューラルネットワークの2次挙動について検討し, 対向摂動に対する堅牢性に着目した。
ニューラルネットワークの第2微分の証明可能な上界を解析的に計算する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-07T17:50:15Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Provable Accelerated Convergence of Nesterov's Momentum for Deep ReLU
Neural Networks [12.763567932588591]
ニューラルネットワークのトレーニングにおける勾配勾配勾配の収束に関する現状分析は、損失景観の特性を特徴づけることに重点を置いている。
我々は、パラメータのサブセットだけが強い凸性を満たす新しい目的関数のクラスを考え、理論においてネステロフの運動量加速度を示す。
我々は、問題クラスの2つの実現法を提供し、そのうちの1つはディープ ReLU ネットワークであり、これは、私たちの知識を最大限に活用するために、非自明なニューラルネットワークアーキテクチャに対する加速収束率を証明する最初の方法である。
論文 参考訳(メタデータ) (2023-06-13T19:55:46Z) - Mean-field analysis for heavy ball methods: Dropout-stability,
connectivity, and global convergence [17.63517562327928]
本稿では,2層および3層からなるニューラルネットワークに着目し,SHBの解の性質を厳密に把握する。
有限幅ネットワークにおける平均場限界とSHBダイナミクスの間には,大域的最適度への収束性を示し,定量的な境界を与える。
論文 参考訳(メタデータ) (2022-10-13T08:08:25Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z) - Boundary Uncertainty in a Single-Stage Temporal Action Localization
Network [12.364819165688628]
両方の不確実性モデリング手法により,mAP@tIoU=0.5で1.5%以上の検出性能が向上することを示す。
提案する単純な1段ネットワークは,より複雑な1段ネットワークと2段ネットワークに近接して動作する。
論文 参考訳(メタデータ) (2020-08-25T17:04:39Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。