論文の概要: Gradient Flow Convergence Guarantee for General Neural Network Architectures
- arxiv url: http://arxiv.org/abs/2509.23887v1
- Date: Sun, 28 Sep 2025 13:52:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.509956
- Title: Gradient Flow Convergence Guarantee for General Neural Network Architectures
- Title(参考訳): 一般ニューラルネットワークアーキテクチャのための勾配流収束保証
- Authors: Yash Jakhmola,
- Abstract要約: 本稿では,連続勾配降下の線形収束(勾配流とも呼ばれる)の統一的な証明を示すとともに,一括非ゼロ活性化やReLU,シグモイド活性化によるニューラルネットワークのトレーニングを行う。
本研究の結果は, 無限小のステップサイズ限界においてのみ正確であるが, 実測値と実測値のステップサイズ勾配法との間には, 優れた実験的一致が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in modern deep learning theory is to explain the remarkable success of gradient-based optimization methods when training large-scale, complex deep neural networks. Though linear convergence of such methods has been proved for a handful of specific architectures, a united theory still evades researchers. This article presents a unified proof for linear convergence of continuous gradient descent, also called gradient flow, while training any neural network with piecewise non-zero polynomial activations or ReLU, sigmoid activations. Our primary contribution is a single, general theorem that not only covers architectures for which this result was previously unknown but also consolidates existing results under weaker assumptions. While our focus is theoretical and our results are only exact in the infinitesimal step size limit, we nevertheless find excellent empirical agreement between the predictions of our result and those of the practical step-size gradient descent method.
- Abstract(参考訳): 現代のディープラーニング理論における重要な課題は、大規模で複雑なディープニューラルネットワークをトレーニングする際の勾配に基づく最適化手法の顕著な成功を説明することである。
このような手法の線形収束はいくつかの特定のアーキテクチャで証明されているが、統一された理論は研究者を避けている。
本稿では,連続勾配降下の線形収束(勾配流とも呼ばれる)の統一的な証明を示すとともに,非零多項式活性化(ReLU)やシグモノイド活性化(Sigmoid activations)を用いて任意のニューラルネットワークを訓練する。
私たちの主要な貢献は単一の一般定理であり、この結果が以前未知であったアーキテクチャをカバーしているだけでなく、より弱い仮定の下で既存の結果を統合している。
我々の焦点は理論的であり、その結果は無限小のステップサイズ制限においてのみ正確であるが、しかしながら、結果の予測と実際のステップサイズ勾配降下法の予測との間には、優れた実証的一致を見いだすことができる。
関連論文リスト
- Generalization Bound of Gradient Flow through Training Trajectory and Data-dependent Kernel [55.82768375605861]
我々は、カーネル法における古典的ラデマッハ複雑性と整合する勾配流の一般化を確立する。
NTKのような静的カーネルとは異なり、LPKはトレーニング軌跡全体をキャプチャし、データと最適化の両方に適応する。
論文 参考訳(メタデータ) (2025-06-12T23:17:09Z) - AdaGrad under Anisotropic Smoothness [10.995979046710893]
本稿では,新しい異方性一般化された滑らか性仮定を提案し,これに対応するアダグラードの解析を行う。
異方的滑らかさと雑音条件下では、AdaGradはより良い次元依存度でより高速な収束を保証することができる。
論文 参考訳(メタデータ) (2024-06-21T15:29:31Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Convergence Analysis for Learning Orthonormal Deep Linear Neural
Networks [27.29463801531576]
本稿では,正規直交深部線形ニューラルネットワークの学習のための収束解析について述べる。
その結果、隠れた層の増加が収束速度にどのように影響するかが明らかになった。
論文 参考訳(メタデータ) (2023-11-24T18:46:54Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Proxy Convexity: A Unified Framework for the Analysis of Neural Networks
Trained by Gradient Descent [95.94432031144716]
学習ネットワークの分析のための統合された非最適化フレームワークを提案する。
既存の保証は勾配降下により統一することができることを示す。
論文 参考訳(メタデータ) (2021-06-25T17:45:00Z) - Learning Fast Approximations of Sparse Nonlinear Regression [50.00693981886832]
本研究では,Threshold Learned Iterative Shrinkage Algorithming (NLISTA)を導入することでギャップを埋める。
合成データを用いた実験は理論結果と相関し,その手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-10-26T11:31:08Z) - Directional convergence and alignment in deep learning [38.73942298289583]
交差エントロピーと関連する分類損失の最小化は無限大であるが, ネットワーク重みは勾配流により方向収束することを示した。
この証明は、ReLU、最大プール、線形および畳み込み層を許容する深い均質ネットワークに対して成り立つ。
論文 参考訳(メタデータ) (2020-06-11T17:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。