論文の概要: PolyKAN: Efficient Fused GPU Operators for Polynomial Kolmogorov-Arnold Network Variants
- arxiv url: http://arxiv.org/abs/2511.14852v1
- Date: Tue, 18 Nov 2025 19:05:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.496955
- Title: PolyKAN: Efficient Fused GPU Operators for Polynomial Kolmogorov-Arnold Network Variants
- Title(参考訳): PolyKAN: Polynomial Kolmogorov-Arnoldネットワーク変数のための効率的な融合GPU演算子
- Authors: Mingkun Yu, Heming Zhong, Dan Huang, Yutong Lu, Jiazhi Jiang,
- Abstract要約: Kolmogorov-Arnold Networks (KAN) はマルチレイヤ・パーセプトロンよりも高い表現能力と高い解釈性を約束している。
我々は,kanとその変種の最初のオープンソース実装であるPolyKANというGPUアクセラレーション演算子ライブラリを提案する。
- 参考スコア(独自算出の注目度): 10.239332579225522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kolmogorov-Arnold Networks (KANs) promise higher expressive capability and stronger interpretability than Multi-Layer Perceptron, particularly in the domain of AI for Science. However, practical adoption has been hindered by low GPU utilization of existing parallel implementations. To address this challenge, we present a GPU-accelerated operator library, named PolyKAN which is the first general open-source implementation of KAN and its variants. PolyKAN fuses the forward and backward passes of polynomial KAN layers into a concise set of optimized CUDA kernels. Four orthogonal techniques underpin the design: (i) \emph{lookup-table} with linear interpolation that replaces runtime expensive math-library functions; (ii) \emph{2D tiling} to expose thread-level parallelism with preserving memory locality; (iii) a \emph{two-stage reduction} scheme converting scattered atomic updates into a single controllable merge step; and (iv) \emph{coefficient-layout reordering} yielding unit-stride reads under the tiled schedule. Using a KAN variant, Chebyshev KAN, as a case-study, PolyKAN delivers $1.2$--$10\times$ faster inference and $1.4$--$12\times$ faster training than a Triton + cuBLAS baseline, with identical accuracy on speech, audio-enhancement, and tabular-regression workloads on both highend GPU and consumer-grade GPU.
- Abstract(参考訳): Kolmogorov-Arnold Networks (KANs) は、特にAI for Scienceの領域において、多層パーセプトロンよりも高い表現能力と強い解釈性を約束している。
しかし、既存の並列実装のGPU使用率が低いため、現実的な採用が妨げられている。
この課題に対処するため,我々は,kanとその変種の最初のオープンソース実装であるPolyKANというGPUアクセラレーション演算子ライブラリを提案する。
PolyKANは、多項式kan層の前方と後方のパスを、最適化されたCUDAカーネルの簡潔なセットに融合する。
4つの直交的技法が設計を支えている。
i) 実行時に高価な数学ライブラリ関数を置き換える線形補間付きemph{lookup-table}
(ii)メモリの局所性を保ったスレッドレベルの並列性を公開するためのemph{2D Tiling}
三 散在する原子の更新を単一の制御可能なマージステップに変換する「二段還元法」及び
(iv) \emph{coefficient-layout reordering} タイル付きスケジュールの下で単行読みを出力する。
Kanの変種であるChebyshev Kanをケーススタディとして、PolyKANは1.2$--$10\times$高速推論と1.4$--$12\times$高速トレーニングを提供する。
関連論文リスト
- Tensor Decomposition Networks for Fast Machine Learning Interatomic Potential Computations [48.46721044282335]
テンソル分解ネットワーク(TDN)は、計算処理の劇的な高速化と競合する性能を実現する。
1億5500万のDFT計算スナップショットを含む分子緩和データセットPubChemQCRのTDNを評価した。
その結果,TDNは計算処理の劇的な高速化と競合する性能を示した。
論文 参考訳(メタデータ) (2025-07-01T18:46:27Z) - Libra: Synergizing CUDA and Tensor Cores for High-Performance Sparse Matrix Multiplication [6.557224606759151]
現代の加速器は一般にスパース演算子を加速するコアとコアを備えている。
資源を1つだけ利用すれば,それぞれの制限のため,スパース行列乗算の性能が劣ることを示す。
本稿では,2.9コアの高性能とコアの低冗長性を両立させて,タスクマッピング演算子のスイートポイントを求める2D対応のワークロード計算戦略を提案する。
論文 参考訳(メタデータ) (2025-06-28T01:50:13Z) - Second-order Optimization of Gaussian Splats with Importance Sampling [51.95046424364725]
3D Gaussian Splatting (3DGS) は、高品質で高速な推論時間のため、新しいビューレンダリングに広く用いられている。
本稿では,Levenberg-Marquardt (LM) と Conjugate Gradient (CG) に基づく新しい2階最適化手法を提案する。
提案手法は標準LMよりも3倍の高速化を実現し,ガウス数が少ない場合のAdamを6倍の6倍の速さで上回る。
論文 参考訳(メタデータ) (2025-04-17T12:52:08Z) - An Efficient Sparse Kernel Generator for O(3)-Equivariant Deep Networks [0.5737287537823071]
回転同変グラフニューラルネットワークは、空間深層学習タスクにおける技術性能の状態を導出する。
クレーブシュ=ゴルドンテンソル積(Clebsch-Gordon tensor product, CG)は、2つの高次特徴ベクトルと高構造スパーステンソルを交換して高密度出力ベクトルを生成するカーネルである。
我々は、CGテンソル製品用のGPUスパースカーネルジェネレータを導入し、既存のオープンソース実装やクローズドソース実装よりも大幅に高速化する。
論文 参考訳(メタデータ) (2025-01-23T08:20:47Z) - Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2024-09-16T17:54:51Z) - Distributed Extra-gradient with Optimal Complexity and Communication
Guarantees [60.571030754252824]
複数のプロセッサ/ワーカー/クライアントがローカルなデュアルベクトルにアクセス可能なマルチGPU設定において、モノトン変分不等式(VI)問題を考察する。
モノトーンVI問題に対するデファクトアルゴリズムであるExtra-gradientは、通信効率が良くないように設計されている。
そこで本稿では,VI の解法に適した非バイアスで適応的な圧縮手法である量子化一般化外部勾配 (Q-GenX) を提案する。
論文 参考訳(メタデータ) (2023-08-17T21:15:04Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。