論文の概要: Global Convergence in Neural ODEs: Impact of Activation Functions
- arxiv url: http://arxiv.org/abs/2509.22436v1
- Date: Fri, 26 Sep 2025 14:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.520993
- Title: Global Convergence in Neural ODEs: Impact of Activation Functions
- Title(参考訳): ニューラル・オーダにおけるグローバル・コンバージェンス:活性化関数の影響
- Authors: Tianxiang Gao, Siyuan Sun, Hailiang Liu, Hongyang Gao,
- Abstract要約: 活性化関数の性質,特に滑らかさと非線形性は,運動力学の訓練に重要であることを示す。
理論的知見は数値実験によって検証され、解析を支援し、ニューラルネットワークのスケーリングのための実践的ガイドラインを提供する。
- 参考スコア(独自算出の注目度): 19.19928901546021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Ordinary Differential Equations (ODEs) have been successful in various applications due to their continuous nature and parameter-sharing efficiency. However, these unique characteristics also introduce challenges in training, particularly with respect to gradient computation accuracy and convergence analysis. In this paper, we address these challenges by investigating the impact of activation functions. We demonstrate that the properties of activation functions, specifically smoothness and nonlinearity, are critical to the training dynamics. Smooth activation functions guarantee globally unique solutions for both forward and backward ODEs, while sufficient nonlinearity is essential for maintaining the spectral properties of the Neural Tangent Kernel (NTK) during training. Together, these properties enable us to establish the global convergence of Neural ODEs under gradient descent in overparameterized regimes. Our theoretical findings are validated by numerical experiments, which not only support our analysis but also provide practical guidelines for scaling Neural ODEs, potentially leading to faster training and improved performance in real-world applications.
- Abstract(参考訳): ニューラル正規微分方程式(ODE)は、その連続的な性質とパラメータ共有効率により、様々な応用で成功している。
しかし、これらのユニークな特徴は、特に勾配計算の精度と収束解析に関して、トレーニングの課題も引き起こす。
本稿では,活性化機能の影響を調査し,これらの課題に対処する。
活性化関数の性質,特に滑らかさと非線形性は,運動力学の訓練に重要であることを実証する。
スムース・アクティベーション(英語版)関数は、前方と後方の両方のODEに対して世界的なユニークな解を保証する一方、トレーニング中のニューラル・タンジェント・カーネル(NTK)のスペクトル特性を維持するのに十分な非線形性は不可欠である。
これらの特性により、過度パラメータ化された状態における勾配勾配下でのニューラルODEのグローバル収束を確立することができる。
我々の理論的な知見は、数値解析だけでなく、ニューラルネットワークのスケーリングのための実践的なガイドラインを提供する数値実験によって検証され、より高速なトレーニングと実世界のアプリケーションの性能向上に繋がる可能性がある。
関連論文リスト
- A Neural Network for the Identical Kuramoto Equation: Architectural Considerations and Performance Evaluation [0.0]
同一振動子倉本モデルから導かれる非局所保存法の解法を近似するためのディープニューラルネットワーク(DNN)の効率について検討する。
ネットワーク構成パラメータが収束特性に影響を与えることを示す。
我々は,一意的あるいは一意的な解を扱う際に,標準フィードフォワードアーキテクチャの基本的限界を特定する。
論文 参考訳(メタデータ) (2025-09-17T19:37:01Z) - Generative System Dynamics in Recurrent Neural Networks [56.958984970518564]
リカレントニューラルネットワーク(RNN)の連続時間ダイナミクスについて検討する。
線形および非線形構成の両方において安定な極限サイクルを実現するためには,スキュー対称性の重み行列が基本であることを示す。
数値シミュレーションは、非線形活性化関数が極限周期を維持するだけでなく、システム統合プロセスの数値安定性を高めることを示す。
論文 参考訳(メタデータ) (2025-04-16T10:39:43Z) - Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - Learnable Activation Functions in Physics-Informed Neural Networks for Solving Partial Differential Equations [0.0]
偏微分方程式(PDE)の解法として物理情報ニューラルネットワーク(PINN)が誕生した。
これらの制限は、急激な振動、鋭い勾配、複雑な境界挙動を含む問題の精度に影響を与える。
これらの課題に対する解決策として,学習可能なアクティベーション関数について検討する。
論文 参考訳(メタデータ) (2024-11-22T18:25:13Z) - ENN: A Neural Network with DCT Adaptive Activation Functions [2.2713084727838115]
離散コサイン変換(DCT)を用いて非線形活性化関数をモデル化する新しいモデルであるExpressive Neural Network(ENN)を提案する。
このパラメータ化は、トレーニング可能なパラメータの数を低く保ち、勾配ベースのスキームに適合し、異なる学習タスクに適応する。
ENNのパフォーマンスは、いくつかのシナリオにおいて40%以上の精度のギャップを提供する、アートベンチマークの状態を上回ります。
論文 参考訳(メタデータ) (2023-07-02T21:46:30Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。