論文の概要: KAN or MLP: A Fairer Comparison
- arxiv url: http://arxiv.org/abs/2407.16674v2
- Date: Sat, 17 Aug 2024 15:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 01:59:09.532964
- Title: KAN or MLP: A Fairer Comparison
- Title(参考訳): Kan または MLP: より公正な比較
- Authors: Runpeng Yu, Weihao Yu, Xinchao Wang,
- Abstract要約: 本稿では,様々なタスクにおけるkanとモデルの比較を,より公平かつ包括的に行う。
パラメータ数とFLOPを制御して,kanの性能と表現性を比較する。
我々は,KANSAの課題が,標準クラス増分学習環境において忘れることよりも深刻であることが確認された。
- 参考スコア(独自算出の注目度): 63.794304207664176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper does not introduce a novel method. Instead, it offers a fairer and more comprehensive comparison of KAN and MLP models across various tasks, including machine learning, computer vision, audio processing, natural language processing, and symbolic formula representation. Specifically, we control the number of parameters and FLOPs to compare the performance of KAN and MLP. Our main observation is that, except for symbolic formula representation tasks, MLP generally outperforms KAN. We also conduct ablation studies on KAN and find that its advantage in symbolic formula representation mainly stems from its B-spline activation function. When B-spline is applied to MLP, performance in symbolic formula representation significantly improves, surpassing or matching that of KAN. However, in other tasks where MLP already excels over KAN, B-spline does not substantially enhance MLP's performance. Furthermore, we find that KAN's forgetting issue is more severe than that of MLP in a standard class-incremental continual learning setting, which differs from the findings reported in the KAN paper. We hope these results provide insights for future research on KAN and other MLP alternatives. Project link: https://github.com/yu-rp/KANbeFair
- Abstract(参考訳): 本論文では,新しい方法を紹介しない。
代わりに、機械学習、コンピュータビジョン、オーディオ処理、自然言語処理、記号式表現など、さまざまなタスクにわたるKanとMLPモデルのより公平で包括的な比較を提供する。
具体的には,パラメータ数とFLOPを制御して,kan と MLP のパフォーマンスを比較する。
我々の主な観察は、記号式表現タスクを除くと、MLPは一般的にKanより優れています。
また, カンに関するアブレーション研究を行い, 記号式表現におけるその優位性は主にB-スプライン活性化関数に由来することを見出した。
MLPにB-スプラインを適用すると、シンボリック式表現の性能は、Kanよりも大幅に向上する。
しかし,すでに Kan に勝っている他のタスクでは,B-spline は MLP の性能を大幅に向上させるものではない。
さらに, 標準クラス増分連続学習環境においては, カンの忘れる問題は, MLPよりも深刻であることが確認された。
これらの結果がkanや他のMLP代替品の今後の研究に役立つことを願っている。
プロジェクトリンク:https://github.com/yu-rp/KanbeFair
関連論文リスト
- On the expressiveness and spectral bias of KANs [17.42614039265962]
深層学習モデルであるMLP(Multi-layer perceptron)のアーキテクチャバックボーンの代替として,kanが提案されている。
カンは科学のためのAIの様々なタスクで成功しており、その経験的効率性と精度は、関数回帰、PDE解決、そして多くの科学的な問題で実証されている。
論文 参考訳(メタデータ) (2024-10-02T17:57:38Z) - KAN v.s. MLP for Offline Reinforcement Learning [4.3621896506713185]
Kolmogorov-Arnold Networks (KAN)は、機械学習における新たなニューラルネットワークアーキテクチャである。
本稿では,オフライン強化学習のためのアクターおよび批評家ネットワークへのkanの組み入れについて検討する。
論文 参考訳(メタデータ) (2024-09-15T07:52:44Z) - MLPs Learn In-Context on Regression and Classification Tasks [28.13046236900491]
In-context Learning (ICL) はしばしばトランスフォーマーモデルのユニークな特徴であると考えられている。
マルチ層パーセプトロン(MLP)もコンテキスト内で学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-24T15:04:36Z) - KAN: Kolmogorov-Arnold Networks [16.782018138008578]
MLP(Multi-Layer Perceptrons)の代替として、KAN(Kolmogorov-Arnold Networks)を提案する。
カンはエッジ上で学習可能なアクティベーション機能を持つ("weights")。
この一見単純な変化により、KANSAは精度と解釈可能性という点で、ニューラルネットワークを上回ります。
論文 参考訳(メタデータ) (2024-04-30T17:58:29Z) - Model-tuning Via Prompts Makes NLP Models Adversarially Robust [97.02353907677703]
Model-tuning Via Prompts (MVP) による対向的ロバスト性の評価
MVPは、標準的な方法よりも平均8%の性能向上を実現している。
また,これらの利得の基盤となるメカニズムの解明も行なっている。
論文 参考訳(メタデータ) (2023-03-13T17:41:57Z) - MLP Architectures for Vision-and-Language Modeling: An Empirical Study [91.6393550858739]
視覚・機能融合(VL)におけるアーキテクチャの利用に関する最初の実証的研究を開始する。
プレトレーニングなしでは、マルチモーダルフュージョンの使用はトランスに比べて顕著な性能差があることが判明した。
マルチヘッドの注意を多用する代わりに、エンコーダに小さなワンヘッドの注意を加えることで、トランスフォーマーに匹敵するパフォーマンスを達成するのに十分である。
論文 参考訳(メタデータ) (2021-12-08T18:26:19Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。
パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文 参考訳(メタデータ) (2021-06-28T17:59:57Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。