論文の概要: Leveraging KANs for Expedient Training of Multichannel MLPs via Preconditioning and Geometric Refinement
- arxiv url: http://arxiv.org/abs/2505.18131v1
- Date: Fri, 23 May 2025 17:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.255531
- Title: Leveraging KANs for Expedient Training of Multichannel MLPs via Preconditioning and Geometric Refinement
- Title(参考訳): プレコンディショニングと幾何学的リファインメントによるマルチチャネルMLPの迅速訓練のためのカンの活用
- Authors: Jonas A. Actor, Graham Harper, Ben Southworth, Eric C. Cyr,
- Abstract要約: マルチレイヤパーセプトロン(MLP)は、様々な現代的なディープラーニングフレームワークで使用される機械学習アーキテクチャである。
近年、コルモゴロフ・アルノルドネットワーク(KAN)は、様々な問題での成功により、ますます人気が高まっている。
本稿では,kansとマルチチャネルの関係を利用して,高速な訓練方法に関する構造的洞察を得る。
- 参考スコア(独自算出の注目度): 2.249916681499244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilayer perceptrons (MLPs) are a workhorse machine learning architecture, used in a variety of modern deep learning frameworks. However, recently Kolmogorov-Arnold Networks (KANs) have become increasingly popular due to their success on a range of problems, particularly for scientific machine learning tasks. In this paper, we exploit the relationship between KANs and multichannel MLPs to gain structural insight into how to train MLPs faster. We demonstrate the KAN basis (1) provides geometric localized support, and (2) acts as a preconditioned descent in the ReLU basis, overall resulting in expedited training and improved accuracy. Our results show the equivalence between free-knot spline KAN architectures, and a class of MLPs that are refined geometrically along the channel dimension of each weight tensor. We exploit this structural equivalence to define a hierarchical refinement scheme that dramatically accelerates training of the multi-channel MLP architecture. We show further accuracy improvements can be had by allowing the $1$D locations of the spline knots to be trained simultaneously with the weights. These advances are demonstrated on a range of benchmark examples for regression and scientific machine learning.
- Abstract(参考訳): マルチレイヤパーセプトロン(MLP)は、様々な現代的なディープラーニングフレームワークで使用される機械学習アーキテクチャである。
しかし、最近のKAN(Kolmogorov-Arnold Networks)は、様々な問題、特に科学機械学習タスクでの成功により人気が高まっている。
本稿では,KansとマルチチャネルMPPの関係を利用して,MPPの学習を高速化するための構造的洞察を得る。
我々は,Kanベース(1)が幾何学的局所化サポートを提供し,(2)ReLUベースで事前条件付き降下として機能し,全体として訓練の迅速化と精度の向上を図っている。
その結果,自由結び目スプリニングカンアーキテクチャと,各ウェイトテンソルのチャネル次元に沿って幾何的に洗練されるMLPの同値性を示した。
我々は、この構造的等価性を利用して、マルチチャネルMLPアーキテクチャのトレーニングを劇的に加速する階層的洗練スキームを定義する。
スプライン結び目の1ドルでのトレーニングと重み付けを同時に行うことで,さらなる精度向上が期待できることを示す。
これらの進歩は、回帰と科学的機械学習の様々なベンチマーク例で実証されている。
関連論文リスト
- KKANs: Kurkova-Kolmogorov-Arnold Networks and Their Learning Dynamics [1.8434042562191815]
Kurkova-Kolmogorov-Arnold Network (KKAN) は、堅牢な多層パーセプトロン(MLP)をベースとした内部関数と、基底関数を外部関数として柔軟な線形結合を組み合わせた新しい2ブロックアーキテクチャである。
ベンチマークの結果、KKANは関数近似および演算子学習タスクにおいて、元のKAN(Kolmogorov-Arnold Networks)よりも優れていた。
論文 参考訳(メタデータ) (2024-12-21T19:01:38Z) - Incorporating Arbitrary Matrix Group Equivariance into KANs [69.30866522377694]
我々は任意の行列群同変をkanに組み込む方法であるEquivariant Kolmogorov-Arnold Networks (EKAN)を提案する。
EKANは、粒子散乱や3体問題といった対称性に関連したタスクにおいて、より小さなデータセットやより少ないパラメータで高い精度を達成する。
論文 参考訳(メタデータ) (2024-10-01T06:34:58Z) - A preliminary study on continual learning in computer vision using Kolmogorov-Arnold Networks [43.70716358136333]
Kolmogorov-Networks (KAN) は基本的に異なる数学的枠組みに基づいている。
Kansは継続的学習シナリオの忘れなど,いくつかの大きな問題に対処している。
コンピュータビジョンにおける連続的な学習課題における感性の評価によって調査を拡大する。
論文 参考訳(メタデータ) (2024-09-20T14:49:21Z) - Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction [53.88231294380083]
非連続的な学習シナリオと連続的な学習シナリオの両方に適合する、新しいMulti-Epoch Learning with Data Augmentation (MEDA)フレームワークを導入する。
MEDAは、その後のトレーニングデータへの埋め込み層の依存性を減らし、過度な適合を最小化する。
実験の結果,プレトレーニングした層が新しい埋め込み空間に適応し,過度に適合することなく性能を向上できることが確認された。
論文 参考訳(メタデータ) (2024-06-27T04:00:15Z) - Equivariant Architectures for Learning in Deep Weight Spaces [54.61765488960555]
重み空間の学習のための新しいネットワークアーキテクチャを提案する。
入力として、事前訓練された不変量の重みとバイアスの連結をとる。
これらのレイヤを3つの基本的な操作で実装する方法を示す。
論文 参考訳(メタデータ) (2023-01-30T10:50:33Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。