論文の概要: On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks
- arxiv url: http://arxiv.org/abs/2410.08041v1
- Date: Thu, 10 Oct 2024 15:34:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 05:45:05.998445
- Title: On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks
- Title(参考訳): Kolmogorov-Arnold ネットワークにおける(確率的)勾配の収束について
- Authors: Yihang Gao, Vincent Y. F. Tan,
- Abstract要約: Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
- 参考スコア(独自算出の注目度): 56.78271181959529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kolmogorov--Arnold Networks (KANs), a recently proposed neural network architecture, have gained significant attention in the deep learning community, due to their potential as a viable alternative to multi-layer perceptrons (MLPs) and their broad applicability to various scientific tasks. Empirical investigations demonstrate that KANs optimized via stochastic gradient descent (SGD) are capable of achieving near-zero training loss in various machine learning (e.g., regression, classification, and time series forecasting, etc.) and scientific tasks (e.g., solving partial differential equations). In this paper, we provide a theoretical explanation for the empirical success by conducting a rigorous convergence analysis of gradient descent (GD) and SGD for two-layer KANs in solving both regression and physics-informed tasks. For regression problems, we establish using the neural tangent kernel perspective that GD achieves global linear convergence of the objective function when the hidden dimension of KANs is sufficiently large. We further extend these results to SGD, demonstrating a similar global convergence in expectation. Additionally, we analyze the global convergence of GD and SGD for physics-informed KANs, which unveils additional challenges due to the more complex loss structure. This is the first work establishing the global convergence guarantees for GD and SGD applied to optimize KANs and physics-informed KANs.
- Abstract(参考訳): Kolmogorov--Arnold Networks (KANs)は、最近提案されたニューラルネットワークアーキテクチャで、多層パーセプトロン(MLP)の代替としての可能性と、さまざまな科学的タスクへの広範な適用性から、ディープラーニングコミュニティにおいて大きな注目を集めている。
確率勾配降下(SGD)により最適化されたカンは、様々な機械学習(回帰、分類、時系列予測など)と科学的タスク(偏微分方程式の解法など)において、ほぼゼロに近い訓練損失を達成できることを示した。
本稿では,2層KANにおける勾配降下(GD)とSGDの厳密な収束解析を行ない,回帰処理と物理情報処理の両方を解くことにより,実験的な成功を理論的に説明する。
回帰問題に対して、我々はGDがカンスの隠れ次元が十分に大きいときに対象関数の大域的線形収束を達成するという神経接カーネルの観点を用いて確立する。
さらにこれらの結果をSGDに拡張し、同様の世界的な期待の収束を示す。
さらに, 物理インフォームド・カンのGDとSGDのグローバル収束を解析し, より複雑な損失構造のため, さらなる課題を明らかにする。
これは、カンと物理学インフォームドカンを最適化するために応用されたGDとSGDのグローバル収束保証を確立する最初の研究である。
関連論文リスト
- Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Rethinking Gauss-Newton for learning over-parameterized models [14.780386419851956]
まず, 条件改善によるGDよりも高速な収束率を示す連続時間限界において, GNのグローバル収束結果を確立する。
次に,GNの手法の暗黙的偏見を調べるために,合成回帰タスクに関する実証的研究を行った。
論文 参考訳(メタデータ) (2023-02-06T16:18:48Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。