論文の概要: PowerMLP: An Efficient Version of KAN
- arxiv url: http://arxiv.org/abs/2412.13571v1
- Date: Wed, 18 Dec 2024 07:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:22:54.252537
- Title: PowerMLP: An Efficient Version of KAN
- Title(参考訳): PowerMLP: Kanの効率的なバージョン
- Authors: Ruichen Qiu, Yibo Miao, Shiwen Wang, Lijia Yu, Yifan Zhu, Xiao-Shan Gao,
- Abstract要約: Kolmogorov-Arnold Network (KAN) は、関数フィッティングやPDE解決といったいくつかのタスクにおいて高い精度で知られている新しいネットワークアーキテクチャである。
Kanの優れた計算能力は、コルモゴロフ・アルノルド表現と学習可能なスプライン関数から生じる。
PowerMLPは、様々なタスクにおいてkanの約40倍の精度とトレーニング速度を達成する。
- 参考スコア(独自算出の注目度): 10.411788782126091
- License:
- Abstract: The Kolmogorov-Arnold Network (KAN) is a new network architecture known for its high accuracy in several tasks such as function fitting and PDE solving. The superior expressive capability of KAN arises from the Kolmogorov-Arnold representation theorem and learnable spline functions. However, the computation of spline functions involves multiple iterations, which renders KAN significantly slower than MLP, thereby increasing the cost associated with model training and deployment. The authors of KAN have also noted that ``the biggest bottleneck of KANs lies in its slow training. KANs are usually 10x slower than MLPs, given the same number of parameters.'' To address this issue, we propose a novel MLP-type neural network PowerMLP that employs simpler non-iterative spline function representation, offering approximately the same training time as MLP while theoretically demonstrating stronger expressive power than KAN. Furthermore, we compare the FLOPs of KAN and PowerMLP, quantifying the faster computation speed of PowerMLP. Our comprehensive experiments demonstrate that PowerMLP generally achieves higher accuracy and a training speed about 40 times faster than KAN in various tasks.
- Abstract(参考訳): Kolmogorov-Arnold Network (KAN) は、関数フィッティングやPDE解決といったいくつかのタスクにおいて高い精度で知られている新しいネットワークアーキテクチャである。
カンの優れた表現能力はコルモゴロフ・アルノルド表現定理と学習可能なスプライン関数から生じる。
しかし、スプライン関数の計算には複数のイテレーションが伴うため、kanはMLPよりも大幅に遅くなり、モデルトレーニングやデプロイに伴うコストが増大する。
kansの最大のボトルネックは、その遅いトレーニングにある、とも述べている。
カンは、パラメータの数が同じであれば、通常、MPPの10倍遅い。
この問題に対処するため,より単純な非定性スプライン関数表現を用いた新しいMLP型ニューラルネットワークPowerMLPを提案する。
さらに、KanとPowerMLPのFLOPを比較し、PowerMLPの高速な計算速度を定量化する。
総合的な実験により,PowerMLPは様々なタスクにおいてkanの約40倍の精度とトレーニング速度を達成できることが示された。
関連論文リスト
- On the expressiveness and spectral bias of KANs [17.42614039265962]
深層学習モデルであるMLP(Multi-layer perceptron)のアーキテクチャバックボーンの代替として,kanが提案されている。
カンは科学のためのAIの様々なタスクで成功しており、その経験的効率性と精度は、関数回帰、PDE解決、そして多くの科学的な問題で実証されている。
論文 参考訳(メタデータ) (2024-10-02T17:57:38Z) - Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2024-09-16T17:54:51Z) - KAN v.s. MLP for Offline Reinforcement Learning [4.3621896506713185]
Kolmogorov-Arnold Networks (KAN)は、機械学習における新たなニューラルネットワークアーキテクチャである。
本稿では,オフライン強化学習のためのアクターおよび批評家ネットワークへのkanの組み入れについて検討する。
論文 参考訳(メタデータ) (2024-09-15T07:52:44Z) - SA-MLP: Enhancing Point Cloud Classification with Efficient Addition and Shift Operations in MLP Architectures [46.266960248570086]
従来のニューラルネットワークは計算コストのかかる乗算演算に大きく依存している。
本稿では,乗算を加算演算とシフト演算に置き換えるAdd-MLPとShift-MLPを提案し,計算効率を大幅に向上させる。
この研究は、ポイントクラウド分類のための効率的かつ効果的なソリューションを提供し、性能と計算効率のバランスをとる。
論文 参考訳(メタデータ) (2024-09-03T15:43:44Z) - Kolmogorov-Arnold Network for Online Reinforcement Learning [0.22615818641180724]
Kolmogorov-Arnold Networks (KANs)は、ニューラルネットワークにおけるMLP(Multi-Layer Perceptrons)の代替としての可能性を示している。
Kansはパラメータが少なく、メモリ使用量が減ったユニバーサル関数近似を提供する。
論文 参考訳(メタデータ) (2024-08-09T03:32:37Z) - KAN or MLP: A Fairer Comparison [63.794304207664176]
本稿では,様々なタスクにおけるkanとモデルの比較を,より公平かつ包括的に行う。
パラメータ数とFLOPを制御して,kanの性能と表現性を比較する。
我々は,KANSAの課題が,標準クラス増分学習環境において忘れることよりも深刻であることが確認された。
論文 参考訳(メタデータ) (2024-07-23T17:43:35Z) - KAN: Kolmogorov-Arnold Networks [16.782018138008578]
MLP(Multi-Layer Perceptrons)の代替として、KAN(Kolmogorov-Arnold Networks)を提案する。
カンはエッジ上で学習可能なアクティベーション機能を持つ("weights")。
この一見単純な変化により、KANSAは精度と解釈可能性という点で、ニューラルネットワークを上回ります。
論文 参考訳(メタデータ) (2024-04-30T17:58:29Z) - Attentive Multi-Layer Perceptron for Non-autoregressive Generation [46.14195464583495]
非自己回帰(NAR)生成は、その効率性と有効性の増加で人気が高まる。
本稿では,線形時間と空間の複雑さを持つ生成モデルを生成するために,新しい変種textbfAttentive textbfMulti-textbfLayer textbfPerceptron(AMLP)を提案する。
論文 参考訳(メタデータ) (2023-10-14T06:44:24Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。