論文の概要: Initialization Schemes for Kolmogorov-Arnold Networks: An Empirical Study
- arxiv url: http://arxiv.org/abs/2509.03417v1
- Date: Wed, 03 Sep 2025 15:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.579471
- Title: Initialization Schemes for Kolmogorov-Arnold Networks: An Empirical Study
- Title(参考訳): Kolmogorov-Arnoldネットワークの初期化スキーム:実証的研究
- Authors: Spyros Rigas, Dhruv Verma, Georgios Alexandridis, Yixuan Wang,
- Abstract要約: Kolmogorov-Arnold Networks (KAN)は、最近導入されたニューラルネットワークで、固定非線形性をトレーニング可能なアクティベーション関数に置き換えている。
この研究は、LeCunとGrorotにインスパイアされた2つの理論駆動のアプローチと、チューナブル指数を持つ経験的パワーローファミリーを提案する。
- 参考スコア(独自算出の注目度): 9.450853542720909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Kolmogorov-Arnold Networks (KANs) are a recently introduced neural architecture that replace fixed nonlinearities with trainable activation functions, offering enhanced flexibility and interpretability. While KANs have been applied successfully across scientific and machine learning tasks, their initialization strategies remain largely unexplored. In this work, we study initialization schemes for spline-based KANs, proposing two theory-driven approaches inspired by LeCun and Glorot, as well as an empirical power-law family with tunable exponents. Our evaluation combines large-scale grid searches on function fitting and forward PDE benchmarks, an analysis of training dynamics through the lens of the Neural Tangent Kernel, and evaluations on a subset of the Feynman dataset. Our findings indicate that the Glorot-inspired initialization significantly outperforms the baseline in parameter-rich models, while power-law initialization achieves the strongest performance overall, both across tasks and for architectures of varying size. All code and data accompanying this manuscript are publicly available at https://github.com/srigas/KAN_Initialization_Schemes.
- Abstract(参考訳): Kolmogorov-Arnold Networks (KAN)は、最近導入されたニューラルネットワークで、固定された非線形性をトレーニング可能なアクティベーション関数に置き換え、柔軟性と解釈性を向上させる。
カンは科学や機械学習のタスクでうまく適用されてきたが、その初期化戦略はほとんど解明されていない。
本研究では, スプライン系kanの初期化スキームについて検討し, LeCun と Glorot にインスパイアされた2つの理論駆動アプローチと, チューナブル指数を持つ経験的パワーローファミリーを提案する。
評価には,関数フィッティングとフォワードPDEベンチマークの大規模グリッド探索,ニューラルタンジェントカーネルのレンズによるトレーニングダイナミクスの解析,ファインマンデータセットのサブセットの評価を組み合わせる。
以上の結果から,Grorotにインスパイアされた初期化はパラメータリッチモデルのベースラインを著しく上回り,パワーローの初期化はタスク全体およびさまざまなサイズのアーキテクチャにおいて,最も高い性能を達成することが示唆された。
この原稿に付随するコードとデータは、https://github.com/srigas/KAN_Initialization_Schemesで公開されている。
関連論文リスト
- A Survey on Kolmogorov-Arnold Network [0.0]
Kolmogorov-Arnold Networks(KAN)の理論的基礎、進化、応用、そして将来の可能性
Kanは、固定活性化関数の代わりに学習可能なスプラインパラメータ化関数を使用することで、従来のニューラルネットワークと区別する。
本稿では,最近のニューラルアーキテクチャにおけるkanの役割を強調し,データ集約型アプリケーションにおける計算効率,解釈可能性,拡張性を改善するための今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-11-09T05:54:17Z) - Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - Reimagining Linear Probing: Kolmogorov-Arnold Networks in Transfer Learning [18.69601183838834]
Kolmogorov-Arnold Networks (KAN) は、伝達学習における従来の線形探索手法の拡張である。
Kanは、従来の線形探索よりも一貫して優れており、精度と一般化の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-09-12T05:36:40Z) - High-Performance Few-Shot Segmentation with Foundation Models: An Empirical Study [64.06777376676513]
基礎モデルに基づく数ショットセグメンテーション(FSS)フレームワークを開発した。
具体的には、基礎モデルから暗黙的な知識を抽出し、粗い対応を構築するための簡単なアプローチを提案する。
2つの広く使われているデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-10T08:04:11Z) - Unifying Self-Supervised Clustering and Energy-Based Models [9.3176264568834]
自己教師付き学習と生成モデルとの間には,原則的な関連性を確立する。
シンボル接地問題の単純かつ非自明なインスタンス化に対処するために,我々の解法をニューロシンボリックな枠組みに統合できることが示される。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - Joint Feature and Differentiable $ k $-NN Graph Learning using Dirichlet
Energy [103.74640329539389]
特徴選択と識別可能な$k $-NNグラフ学習を同時に行うディープFS法を提案する。
我々は、ニューラルネットワークで$ k $-NNグラフを学習する際の非微分可能性問題に対処するために、最適輸送理論を用いる。
本モデルの有効性を,合成データセットと実世界のデータセットの両方で広範な実験により検証する。
論文 参考訳(メタデータ) (2023-05-21T08:15:55Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - A Unified Paths Perspective for Pruning at Initialization [0.0]
ニューラルタンジェントカーネルの分解におけるデータ非依存要因としてパスカーネルを紹介します。
パスカーネルのグローバル構造を効率的に計算できることを示します。
データ不在時におけるネットワークのトレーニングと一般化パフォーマンスの近似におけるこの構造の使用を分析します。
論文 参考訳(メタデータ) (2021-01-26T04:29:50Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Weighted Aggregating Stochastic Gradient Descent for Parallel Deep
Learning [8.366415386275557]
解決策には、ニューラルネットワークモデルにおける最適化のための目的関数の修正が含まれる。
本稿では,地方労働者のパフォーマンスに基づく分散型重み付けアグリゲーション方式を提案する。
提案手法を検証するため,提案手法をいくつかの一般的なアルゴリズムと比較した。
論文 参考訳(メタデータ) (2020-04-07T23:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。