論文の概要: Generalization Bounds and Model Complexity for Kolmogorov-Arnold Networks
- arxiv url: http://arxiv.org/abs/2410.08026v1
- Date: Thu, 10 Oct 2024 15:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 05:55:13.955062
- Title: Generalization Bounds and Model Complexity for Kolmogorov-Arnold Networks
- Title(参考訳): Kolmogorov-Arnold ネットワークの一般化境界とモデル複雑度
- Authors: Xianyang Zhang, Huijuan Zhou,
- Abstract要約: Kolmogorov-Arnold Network (KAN)は、Liuらによって最近提案されたネットワーク構造である。
活性化関数を備えたカンの一般化境界を確立することにより、カンの厳密な理論的解析を提供する。
- 参考スコア(独自算出の注目度): 1.5850926890180461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Kolmogorov-Arnold Network (KAN) is a network structure recently proposed by Liu et al. (2024) that offers improved interpretability and a more parsimonious design in many science-oriented tasks compared to multi-layer perceptrons. This work provides a rigorous theoretical analysis of KAN by establishing generalization bounds for KAN equipped with activation functions that are either represented by linear combinations of basis functions or lying in a low-rank Reproducing Kernel Hilbert Space (RKHS). In the first case, the generalization bound accommodates various choices of basis functions in forming the activation functions in each layer of KAN and is adapted to different operator norms at each layer. For a particular choice of operator norms, the bound scales with the $l_1$ norm of the coefficient matrices and the Lipschitz constants for the activation functions, and it has no dependence on combinatorial parameters (e.g., number of nodes) outside of logarithmic factors. Moreover, our result does not require the boundedness assumption on the loss function and, hence, is applicable to a general class of regression-type loss functions. In the low-rank case, the generalization bound scales polynomially with the underlying ranks as well as the Lipschitz constants of the activation functions in each layer. These bounds are empirically investigated for KANs trained with stochastic gradient descent on simulated and real data sets. The numerical results demonstrate the practical relevance of these bounds.
- Abstract(参考訳): Kolmogorov-Arnold Network (KAN) は、Liu et al (2024) によって最近提案されたネットワーク構造であり、多層パーセプトロンと比較して、多くの科学指向のタスクにおいて、解釈可能性を改善し、より類似的な設計を提供する。
この研究は、基底関数の線型結合で表されるか、低ランク再生ケルネルヒルベルト空間(RKHS)に横たわる活性化関数を備えたカンの一般化境界を確立することにより、カンの厳密な理論的解析を提供する。
第一の場合、一般化境界はカンの各層における活性化関数の形成における基底関数の様々な選択に対応し、各層における異なる作用素ノルムに適応する。
作用素ノルムの特定の選択には、係数行列の$l_1$ノルムと活性化関数のリプシッツ定数との有界スケールがあり、対数係数以外の組合せパラメータ(例えばノード数)に依存しない。
さらに、この結果は損失関数上の有界性仮定を必要とせず、従って回帰型損失関数の一般クラスに適用できる。
低ランクの場合、一般化境界は各層における活性化関数のリプシッツ定数と同様に、下層のランクと多項式的にスケールする。
これらの境界は、シミュレーションおよび実データ集合上で確率勾配降下を訓練したカンに対して実験的に検討される。
数値的な結果は,これらの境界の実用的妥当性を示すものである。
関連論文リスト
- How (Implicit) Regularization of ReLU Neural Networks Characterizes the
Learned Function -- Part II: the Multi-D Case of Two Layers with Random First
Layer [2.1485350418225244]
本稿では,ReLUアクティベーションを伴うランダム化した浅層NNの一般化挙動を,正確なマクロ解析により解析する。
RSNは、無限に多くの方向が考慮される一般化加法モデル(GAM)型回帰に対応することを示す。
論文 参考訳(メタデータ) (2023-03-20T21:05:47Z) - Deterministic equivalent and error universality of deep random features
learning [4.8461049669050915]
この問題は、広く研究されているランダム特徴モデルのより深いアーキテクチャへの自然な一般化と見なすことができる。
まず,学習者と対象ネットワークが同一の中間層を共有した普遍性リッジ設定において,テストエラーの普遍性を証明し,そのシャープな式を提供する。
第二に、任意の凸損失と一般的な学習/ターゲットアーキテクチャのより一般的な設定において、テストエラーの普遍性を予想する。
論文 参考訳(メタデータ) (2023-02-01T12:37:10Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - From Kernel Methods to Neural Networks: A Unifying Variational
Formulation [25.6264886382888]
演算子と一般ラドン領域ノルムに依存する統一正規化関数を提案する。
我々のフレームワークは、多種多様な正規化演算子、または同等に、幅広い浅層ニューラルネットワークに対して、普遍的な近似を保証する。
論文 参考訳(メタデータ) (2022-06-29T13:13:53Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Model based Multi-agent Reinforcement Learning with Tensor
Decompositions [52.575433758866936]
本稿では、CPランクの低いテンソルとして遷移関数と報酬関数をモデル化することにより、未探索の状態-作用対上の状態-作用空間の一般化を考察する。
合成MDPの実験により、モデルに基づく強化学習アルゴリズムでテンソル分解を用いることで、真の遷移関数と報酬関数が実際に低ランクである場合、はるかに高速な収束が得られることが示された。
論文 参考訳(メタデータ) (2021-10-27T15:36:25Z) - Bilinear Classes: A Structural Framework for Provable Generalization in
RL [119.42509700822484]
Bilinear Classesは強化学習の一般化を可能にする新しい構造フレームワークである。
このフレームワークは、サンプルの複雑さが達成可能な、ほとんどすべての既存のモデルを取り込んでいる。
我々の主な成果は、双線形クラスのためのサンプル複雑性を持つRLアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-19T16:34:20Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Analytical bounds on the local Lipschitz constants of affine-ReLU
functions [0.0]
Affine-ReLU関数の局所リプシッツ定数の上界を数学的に決定する。
ネットワーク全体のバウンダリを決定するために、これらのバウンダリをどのように組み合わせることができるかを示す。
我々は、この結果をAlexNetに適用し、MNISTとCIFAR-10データセットに基づくいくつかの小さなネットワークを例示する。
論文 参考訳(メタデータ) (2020-08-14T00:23:21Z) - Universal Approximation Power of Deep Residual Neural Networks via
Nonlinear Control Theory [9.210074587720172]
我々は、幾何学的非線形制御により、ディープ残差ニューラルネットワークの普遍近似能力を説明する。
残余ネットワークと制御システムとのリンクを確立する最近の研究に触発されて、残余ネットワークが普遍近似の力を持つための一般的な条件を提供する。
論文 参考訳(メタデータ) (2020-07-12T14:53:30Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。