論文の概要: KKANs: Kurkova-Kolmogorov-Arnold Networks and Their Learning Dynamics
- arxiv url: http://arxiv.org/abs/2412.16738v1
- Date: Sat, 21 Dec 2024 19:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:07.073442
- Title: KKANs: Kurkova-Kolmogorov-Arnold Networks and Their Learning Dynamics
- Title(参考訳): KKANs: Kurkova-Kolmogorov-Arnold Networksとその学習ダイナミクス
- Authors: Juan Diego Toscano, Li-Lian Wang, George Em Karniadakis,
- Abstract要約: Kurkova-Kolmogorov-Arnold Network (KKAN) は、堅牢な多層パーセプトロン(MLP)をベースとした内部関数と、基底関数を外部関数として柔軟な線形結合を組み合わせた新しい2ブロックアーキテクチャである。
ベンチマークの結果、KKANは関数近似および演算子学習タスクにおいて、元のKAN(Kolmogorov-Arnold Networks)よりも優れていた。
- 参考スコア(独自算出の注目度): 1.8434042562191815
- License:
- Abstract: Inspired by the Kolmogorov-Arnold representation theorem and Kurkova's principle of using approximate representations, we propose the Kurkova-Kolmogorov-Arnold Network (KKAN), a new two-block architecture that combines robust multi-layer perceptron (MLP) based inner functions with flexible linear combinations of basis functions as outer functions. We first prove that KKAN is a universal approximator, and then we demonstrate its versatility across scientific machine-learning applications, including function regression, physics-informed machine learning (PIML), and operator-learning frameworks. The benchmark results show that KKANs outperform MLPs and the original Kolmogorov-Arnold Networks (KANs) in function approximation and operator learning tasks and achieve performance comparable to fully optimized MLPs for PIML. To better understand the behavior of the new representation models, we analyze their geometric complexity and learning dynamics using information bottleneck theory, identifying three universal learning stages, fitting, transition, and diffusion, across all types of architectures. We find a strong correlation between geometric complexity and signal-to-noise ratio (SNR), with optimal generalization achieved during the diffusion stage. Additionally, we propose self-scaled residual-based attention weights to maintain high SNR dynamically, ensuring uniform convergence and prolonged learning.
- Abstract(参考訳): コルモゴロフ・アルノルド表現定理とクルコバの近似表現を用いた原理に着想を得て、ロバストな多層パーセプトロン(MLP)に基づく内部関数と基底関数の柔軟な線形結合を外部関数として組み合わせた新しい2ブロックアーキテクチャであるクルコバ・コルモゴロフ・アルノルドネットワーク(KKAN)を提案する。
まず、KKANが普遍近似器であることを証明し、関数回帰、物理インフォームド機械学習(PIML)、演算子学習フレームワークなど、科学的な機械学習アプリケーションにまたがる汎用性を実証する。
ベンチマークの結果,KKANは関数近似および演算子学習タスクにおいてMLPとKAN(Kolmogorov-Arnold Networks)を上回り,PIMLの完全最適化MLPに匹敵する性能を達成した。
新しい表現モデルの振る舞いをよりよく理解するために、情報ボトルネック理論を用いて幾何学的複雑性と学習ダイナミクスを分析し、あらゆるタイプのアーキテクチャにおいて3つの普遍的な学習段階、適合、遷移、拡散を識別する。
幾何学的複雑性と信号対雑音比(SNR)の間には強い相関関係がみられ、拡散段階において最適な一般化が達成される。
さらに,高いSNRを動的に維持し,一様収束と長期学習を確保するために,自己スケール残差に基づく注意重みを提案する。
関連論文リスト
- A Survey on Kolmogorov-Arnold Network [0.0]
Kolmogorov-Arnold Networks(KAN)の理論的基礎、進化、応用、そして将来の可能性
Kanは、固定活性化関数の代わりに学習可能なスプラインパラメータ化関数を使用することで、従来のニューラルネットワークと区別する。
本稿では,最近のニューラルアーキテクチャにおけるkanの役割を強調し,データ集約型アプリケーションにおける計算効率,解釈可能性,拡張性を改善するための今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-11-09T05:54:17Z) - KAN-ODEs: Kolmogorov-Arnold Network Ordinary Differential Equations for Learning Dynamical Systems and Hidden Physics [0.0]
コルモゴロフ・アルノルドネットワーク(KAN)は多層パーセプトロン(MLP)の代替品である
この研究は、Kansをニューラル常微分方程式(ODE)フレームワークのバックボーンとして適用する。
論文 参考訳(メタデータ) (2024-07-05T00:38:49Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Universal approximation property of invertible neural networks [76.95927093274392]
Invertible Neural Network (INN) は、設計によって可逆性を持つニューラルネットワークアーキテクチャである。
その可逆性とヤコビアンのトラクタビリティのおかげで、IGNは確率的モデリング、生成的モデリング、表現的学習など、さまざまな機械学習応用がある。
論文 参考訳(メタデータ) (2022-04-15T10:45:26Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Fast Reinforcement Learning with Incremental Gaussian Mixture Models [0.0]
Incrmental Gaussian Mixture Network (IGMN)と呼ばれる単一パスから学習可能なオンラインおよびインクリメンタルなアルゴリズムが、結合状態とQ値空間のためのサンプル効率関数近似器として採用された。
IGMN関数近似器の使用は、勾配降下法で訓練された従来のニューラルネットワークと比較して、強化学習に重要な利点をもたらすことが観察された。
論文 参考訳(メタデータ) (2020-11-02T03:18:15Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Deep Learning with Functional Inputs [0.0]
本稿では,機能データをフィードフォワードニューラルネットワークに統合する手法を提案する。
この手法の副産物は、最適化プロセス中に可視化できる動的な機能的重みの集合である。
このモデルは、新しいデータの予測や真の機能的重みの回復など、多くの文脈でうまく機能することが示されている。
論文 参考訳(メタデータ) (2020-06-17T01:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。