論文の概要: Lookup multivariate Kolmogorov-Arnold Networks
- arxiv url: http://arxiv.org/abs/2509.07103v1
- Date: Mon, 08 Sep 2025 18:00:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.070285
- Title: Lookup multivariate Kolmogorov-Arnold Networks
- Title(参考訳): 多変量コルモゴロフ・アルノルドネットワークの探索
- Authors: Sergey Pozdnyakov, Philippe Schwaller,
- Abstract要約: 高次元線形写像は、現代のディープラーニングモデルのパラメータ数と計算コストの両方を支配している。
我々は、一般的なドロップイン置換、ルックアップ多変数Kolmogorov-Arnold Networks (lmKANs)を導入する。
lmKANはキャパシティと推論コストのトレードオフを著しく改善します。
- 参考スコア(独自算出の注目度): 5.639419519849473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-dimensional linear mappings, or linear layers, dominate both the parameter count and the computational cost of most modern deep-learning models. We introduce a general drop-in replacement, lookup multivariate Kolmogorov-Arnold Networks (lmKANs), which deliver a substantially better trade-off between capacity and inference cost. Our construction expresses a general high-dimensional mapping through trainable low-dimensional multivariate functions. These functions can carry dozens or hundreds of trainable parameters each, and yet it takes only a few multiplications to compute them because they are implemented as spline lookup tables. Empirically, lmKANs reduce inference FLOPs by up to 6.0x while matching the flexibility of MLPs in general high-dimensional function approximation. In another feedforward fully connected benchmark, on the tabular-like dataset of randomly displaced methane configurations, lmKANs enable more than 10x higher H100 throughput at equal accuracy. Within frameworks of Convolutional Neural Networks, lmKAN-based CNNs cut inference FLOPs at matched accuracy by 1.6-2.1x and by 1.7x on the CIFAR-10 and ImageNet-1k datasets, respectively. Our code, including dedicated CUDA kernels, is available online at https://github.com/schwallergroup/lmkan.
- Abstract(参考訳): 高次元線形写像(英: high-dimensional linear mapping)または線形層(英: linear layer)は、現代のディープラーニングモデルのパラメータ数と計算コストの両方を支配している。
キャパシティと推論コストのトレードオフを著しく改善する汎用的なドロップイン置換型マルチ変数Kolmogorov-Arnold Networks(lmKANs)を導入する。
我々の構成は、訓練可能な低次元多変数関数による一般的な高次元写像を表現する。
これらの関数は、それぞれ数十から数百のトレーニング可能なパラメータを格納できるが、スプラインルックアップテーブルとして実装されているため、計算にはほんの数回しか要しない。
経験的に、lmKANsは一般高次元関数近似におけるMLPの柔軟性を一致させながら、FLOPsを最大6.0倍に減少させる。
別のフィードフォワード完全連結ベンチマークでは、ランダムに置換されたメタン構成の表のようなデータセットで、lmKANは10倍以上高いH100スループットを同等の精度で実現している。
畳み込みニューラルネットワークのフレームワークでは、lmKANベースのCNNがFLOPを精度1.6-2.1倍、CIFAR-10とImageNet-1kデータセットで1.7倍の精度で削減した。
CUDAカーネルを含む私たちのコードは、https://github.com/schwallergroup/lmkan.comで公開されている。
関連論文リスト
- KHRONOS: a Kernel-Based Neural Architecture for Rapid, Resource-Efficient Scientific Computation [0.9355993154058798]
我々はモデルベース、モデルフリー、モデル反転タスクのためのAIフレームワークであるKHRONOSを紹介する。
KHRONOSは、次元ごとのカーネル展開の階層的な構成で連続的に微分可能な対象場を構築する。
逆問題に対して、KHRONOSは、サンプルレイテンシあたりのサブマイクロ秒で、数回のフォワード評価で、高速で反復的なレベルセットのリカバリを容易にする。
論文 参考訳(メタデータ) (2025-05-19T16:29:07Z) - No Free Lunch From Random Feature Ensembles [23.661623767100384]
モデル全体のサイズに関する予算が与えられた場合、単一の大きなニューラルネットワークをトレーニングするか、あるいは多数の小さなネットワークの予測を組み合わせるかを判断する必要がある。
トレーニング可能なパラメータの固定数が、独立に訓練されたモデルで$K$に分割された場合、$K=1$が最適な性能を達成することを証明した。
カーネルおよびタスク固有構造上の条件を特定し、アンサンブルがほぼ最適スケーリング法則を達成できることを示す。
論文 参考訳(メタデータ) (2024-12-06T20:55:27Z) - Incorporating Arbitrary Matrix Group Equivariance into KANs [69.30866522377694]
Kolmogorov-Arnold Networks (KAN) は科学分野で大きな成功を収めている。
本研究では,Equivariant Kolmogorov-Arnold Networks (EKAN)を提案する。
論文 参考訳(メタデータ) (2024-10-01T06:34:58Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Comparison of Affine and Rational Quadratic Spline Coupling and Autoregressive Flows through Robust Statistical Tests [0.0]
本稿では,対称および非対称ビジェクタに基づく結合と自己回帰流の詳細な比較を提案する。
本研究は,4~400の次元を拡大する多モーダルな対象分布の集合に焦点をあてる。
以上の結果から,A-RQSアルゴリズムは精度とトレーニング速度の両面で際立っていることが示唆された。
論文 参考訳(メタデータ) (2023-02-23T13:34:01Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - DS-FACTO: Doubly Separable Factorization Machines [4.281959480566438]
因子化マシン(FM)は、線形モデルにより表現力を加えるために、特徴間の高次相互作用を含む強力なモデルのクラスである。
ペアワイズ機能に低ランク表現を使用するにもかかわらず、大規模な実世界のデータセットにファクタライズマシンを使用することのメモリオーバーヘッドは禁じられるほど高い。
単一マシンで動作する従来のFMアルゴリズムでは,このスケールを処理できないため,クラスタ間で計算を並列化する分散アルゴリズムは避けられない。
論文 参考訳(メタデータ) (2020-04-29T03:36:28Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。