論文の概要: Multilevel Training for Kolmogorov Arnold Networks
- arxiv url: http://arxiv.org/abs/2603.04827v1
- Date: Thu, 05 Mar 2026 05:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.086834
- Title: Multilevel Training for Kolmogorov Arnold Networks
- Title(参考訳): Kolmogorov Arnold Networks のマルチレベルトレーニング
- Authors: Ben S. Southworth, Jonas A. Actor, Graham Harper, Eric C. Cyr,
- Abstract要約: Kolmogorov-Arnoldネットワーク(KAN)は、学習したアクティベーションを特定のベースで拡張することによって、より多くの構造を提供する。
本稿では,この構造を利用して実用的なアルゴリズムと理論的知見を開発し,KANSAのマルチレベルトレーニングによるトレーニングスピードアップを実現する。
- 参考スコア(独自算出の注目度): 1.3299507495084417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Algorithmic speedup of training common neural architectures is made difficult by the lack of structure guaranteed by the function compositions inherent to such networks. In contrast to multilayer perceptrons (MLPs), Kolmogorov-Arnold networks (KANs) provide more structure by expanding learned activations in a specified basis. This paper exploits this structure to develop practical algorithms and theoretical insights, yielding training speedup via multilevel training for KANs. To do so, we first establish an equivalence between KANs with spline basis functions and multichannel MLPs with power ReLU activations through a linear change of basis. We then analyze how this change of basis affects the geometry of gradient-based optimization with respect to spline knots. The KANs change-of-basis motivates a multilevel training approach, where we train a sequence of KANs naturally defined through a uniform refinement of spline knots with analytic geometric interpolation operators between models. The interpolation scheme enables a ``properly nested hierarchy'' of architectures, ensuring that interpolation to a fine model preserves the progress made on coarse models, while the compact support of spline basis functions ensures complementary optimization on subsequent levels. Numerical experiments demonstrate that our multilevel training approach can achieve orders of magnitude improvement in accuracy over conventional methods to train comparable KANs or MLPs, particularly for physics informed neural networks. Finally, this work demonstrates how principled design of neural networks can lead to exploitable structure, and in this case, multilevel algorithms that can dramatically improve training performance.
- Abstract(参考訳): 一般的なニューラルネットワークアーキテクチャを訓練するアルゴリズム的な高速化は、そのようなネットワーク固有の関数構成によって保証される構造が欠如しているため困難である。
多層パーセプトロン(MLP)とは対照的に、コルモゴロフ・アルノルドネットワーク(KAN)は、学習されたアクティベーションを特定のベースで拡張することによって、より構造的を提供する。
本稿では,この構造を利用して実用的なアルゴリズムと理論的知見を開発し,KANSAのマルチレベルトレーニングによるトレーニングスピードアップを実現する。
そこで我々はまず, スプライン基底関数を持つkansと, パワーReLUアクティベーションを持つマルチチャネルMLPの等価性を, 基底の線形変化により確立する。
次に、この基底の変化がスプライン結び目に対する勾配に基づく最適化の幾何にどのように影響するかを分析する。
そこでは,モデル間の解析幾何学的補間演算子を用いたスプライン結び目の均一な洗練により,自然に定義されたカンの列を訓練する。
補間スキームはアーキテクチャの ‘properly nested hierarchy' を可能にし、微細モデルへの補間が粗いモデル上での進捗を保ちつつ、スプライン基底関数のコンパクトなサポートは、その後のレベルで補完的な最適化を保証する。
数値実験により、我々のマルチレベルトレーニングアプローチは、特に物理情報ニューラルネットワークにおいて、従来のKANまたはMLPをトレーニングする手法よりも精度が大幅に向上できることが示されている。
最後に、この研究は、ニューラルネットワークの原理設計が、どのようにして悪用可能な構造に導くかを示し、この場合、トレーニング性能を劇的に改善するマルチレベルアルゴリズムである。
関連論文リスト
- Rethinking the Role of Dynamic Sparse Training for Scalable Deep Reinforcement Learning [58.533203990515034]
ニューラルネットワークのスケーリングは機械学習における画期的な進歩をもたらしたが、このパラダイムは深層強化学習(DRL)では失敗している。
我々は、動的スパーストレーニング戦略が、アーキテクチャの改善によって確立された主要なスケーラビリティ基盤を補完するモジュール固有の利点を提供することを示す。
アーキテクチャ改善の利点を生かした実践的なフレームワークであるModule-Specific Training (MST) にこれらの知見を精査し、アルゴリズムの修正なしに様々なRLアルゴリズムをまたいだ大幅なスケーラビリティ向上を示す。
論文 参考訳(メタデータ) (2025-10-14T03:03:08Z) - A Unified Framework for Lifted Training and Inversion Approaches [42.951318906669506]
この章では、さまざまな持ち上げトレーニング戦略をカプセル化した統合フレームワークを紹介します。
本稿では,ブロックコーディネート降下戦略を用いて,これらの手法の実装について論じる。
標準撮像タスクの数値計算結果から,昇降ブレグマン法の有効性と安定性が検証された。
論文 参考訳(メタデータ) (2025-10-10T19:00:34Z) - Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - Layer-wise Quantization for Quantized Optimistic Dual Averaging [75.4148236967503]
我々は、訓練の過程で不均一性に適応し、厳密な分散とコード長境界を持つ一般的な層ワイド量子化フレームワークを開発する。
本稿では,適応学習率を持つ量子最適化双対平均化(QODA)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-20T13:53:58Z) - Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme [0.0]
機械学習の創発は、トレーニングデータのスケールと構造から生じる能力の自発的な出現を指す。
我々は、出現の可能性を高めることを目的とした、新しい単純なニューラルネットワーク初期化スキームを導入する。
バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-07-26T18:56:47Z) - Efficient and Flexible Neural Network Training through Layer-wise Feedback Propagation [49.44309457870649]
レイヤワイドフィードバックフィードバック(LFP)は、ニューラルネットワークのような予測器のための新しいトレーニング原則である。
LFPはそれぞれの貢献に基づいて個々のニューロンに報酬を分解する。
提案手法は,ネットワークの有用な部分と有害な部分の弱体化を両立させる手法である。
論文 参考訳(メタデータ) (2023-08-23T10:48:28Z) - An Adaptive and Stability-Promoting Layerwise Training Approach for Sparse Deep Neural Network Architecture [0.0]
この研究は、与えられたトレーニングデータセットに対してうまく一般化するディープニューラルネットワーク(DNN)アーキテクチャを開発するための2段階適応フレームワークを提案する。
第1段階では、新しいレイヤを毎回追加し、前のレイヤでパラメータを凍結することで独立してトレーニングする、レイヤワイズトレーニングアプローチが採用されている。
本稿では, 学習アルゴリズムの望ましい特性として, エプシロン・デルタ安定促進の概念を導入し, 多様体正規化を用いることで, エプシロン・デルタ安定促進アルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-13T09:51:16Z) - PHN: Parallel heterogeneous network with soft gating for CTR prediction [2.9722444664527243]
本稿では並列構造を持つネットワークを構成する並列不均一ネットワーク(PHN)モデルを提案する。
トレーニング可能なパラメータとの残留リンクは、弱い勾配現象の影響を軽減するためにネットワークで使用される。
論文 参考訳(メタデータ) (2022-06-18T11:37:53Z) - A Differential Game Theoretic Neural Optimizer for Training Residual
Networks [29.82841891919951]
本稿では、残差接続と畳み込み層の両方を受け入れる一般化微分動的プログラミング(DDP)ニューラルアーキテクチャを提案する。
得られた最適制御表現は、トレーニング残余ネットワークを、状態拡張システム上での協調的軌道最適化と解釈できるゲーム論的視点を許容する。
論文 参考訳(メタデータ) (2020-07-17T10:19:17Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。