論文の概要: KAN: Kolmogorov-Arnold Networks
- arxiv url: http://arxiv.org/abs/2404.19756v3
- Date: Fri, 24 May 2024 22:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 05:37:42.420089
- Title: KAN: Kolmogorov-Arnold Networks
- Title(参考訳): Kan: Kolmogorov-Arnold Networks
- Authors: Ziming Liu, Yixuan Wang, Sachin Vaidya, Fabian Ruehle, James Halverson, Marin Soljačić, Thomas Y. Hou, Max Tegmark,
- Abstract要約: MLP(Multi-Layer Perceptrons)の代替として、KAN(Kolmogorov-Arnold Networks)を提案する。
カンはエッジ上で学習可能なアクティベーション機能を持つ("weights")。
この一見単純な変化により、KANSAは精度と解釈可能性という点で、ニューラルネットワークを上回ります。
- 参考スコア(独自算出の注目度): 16.782018138008578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the Kolmogorov-Arnold representation theorem, we propose Kolmogorov-Arnold Networks (KANs) as promising alternatives to Multi-Layer Perceptrons (MLPs). While MLPs have fixed activation functions on nodes ("neurons"), KANs have learnable activation functions on edges ("weights"). KANs have no linear weights at all -- every weight parameter is replaced by a univariate function parametrized as a spline. We show that this seemingly simple change makes KANs outperform MLPs in terms of accuracy and interpretability. For accuracy, much smaller KANs can achieve comparable or better accuracy than much larger MLPs in data fitting and PDE solving. Theoretically and empirically, KANs possess faster neural scaling laws than MLPs. For interpretability, KANs can be intuitively visualized and can easily interact with human users. Through two examples in mathematics and physics, KANs are shown to be useful collaborators helping scientists (re)discover mathematical and physical laws. In summary, KANs are promising alternatives for MLPs, opening opportunities for further improving today's deep learning models which rely heavily on MLPs.
- Abstract(参考訳): コルモゴロフ・アルノルド表現定理に着想を得て、多層受容器(MLP)の代替としてコルモゴロフ・アルノルドネットワーク(KAN)を提案する。
MLPはノード(ニューロン)上で一定の活性化関数を持つが、Kanはエッジ(重み)上で学習可能な活性化関数を持つ。
カンは線形重みを全く持たず、全ての重みパラメータはスプラインとしてパラメータ化された単変量関数に置き換えられる。
この一見単純な変化により、KANSA は精度と解釈可能性において MLP を上回ります。
正確性のために、より小さなkanは、データフィッティングやPDE解決において、はるかに大きなMLPよりも同等またはより良い精度を達成することができる。
理論上、実証上、カンはMLPよりも高速なニューラルスケーリング法則を持っている。
解釈可能性のために、KANSAは直感的に視覚化でき、人間のユーザと簡単に対話できる。
数学と物理学の2つの例を通して、カンは科学者が数学的および物理的法則を発見(再発見)するのに有用な協力者であることが示されている。
要約すると、KansはMLPの代替として有望であり、MDPに大きく依存する今日のディープラーニングモデルをさらに改善する機会を開く。
関連論文リスト
- KAN or MLP: A Fairer Comparison [63.794304207664176]
本稿では,様々なタスクにおけるkanとモデルの比較を,より公平かつ包括的に行う。
パラメータ数とFLOPを制御して,kanの性能と表現性を比較する。
我々は,KANSAの課題が,標準クラス増分学習環境において忘れることよりも深刻であることが確認された。
論文 参考訳(メタデータ) (2024-07-23T17:43:35Z) - KAGNNs: Kolmogorov-Arnold Networks meet Graph Learning [27.638009679134523]
グラフニューラルネットワーク(GNN)は,ノードとグラフ表現を学習するためのデファクトツールとなっている。
本研究では,KAN(Kolmogorov-Arnold Networks)とグラフ学習タスクの定理の性能を比較した。
論文 参考訳(メタデータ) (2024-06-26T14:21:21Z) - NTK-approximating MLP Fusion for Efficient Language Model Fine-tuning [40.994306592119266]
訓練済みの言語モデル(PLM)を微調整することは、多くの自然言語処理アプリケーションにおいて主要な戦略として現れる。
いくつかの一般的なアプローチ(量子化や蒸留など)は、PLM微細チューニングの計算/メモリを減らすために広く研究されている。
我々は、NTK近似モジュールを融合して軽量PLMを作成することを提案する。
論文 参考訳(メタデータ) (2023-07-18T03:12:51Z) - ReLU Fields: The Little Non-linearity That Could [62.228229880658404]
我々は,高忠実度結果の保持を可能にするグリッドベース表現に対する最小の変更点について検討する。
このようなアプローチが最先端技術と競合することを示します。
論文 参考訳(メタデータ) (2022-05-22T13:42:31Z) - Brain-inspired Multilayer Perceptron with Spiking Neurons [41.600417794312506]
スパイキングネットワーク(SNN)は、脳にインスパイアされた最も有名なニューラルネットワークである。
脳にインスパイアされたニューラルネットワークからの情報通信機構を導入する。
LIFモジュールでは、当社のSNN-MLPモデルは、ImageNetデータセット上で81.9%、83.3%、83.5%のトップ1の精度を達成した。
論文 参考訳(メタデータ) (2022-03-28T12:21:47Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - Rethinking Token-Mixing MLP for MLP-based Vision Backbone [34.47616917228978]
本稿では,Circulant Channel-Specific(CCS)トークン混合ベンチマークと呼ばれる,空間不変かつチャネル固有な改良された構造を提案する。
パラメータは少ないが、ImageNet1Kでは高い分類精度が得られる。
論文 参考訳(メタデータ) (2021-06-28T17:59:57Z) - On Graph Neural Networks versus Graph-Augmented MLPs [51.23890789522705]
Graph-Augmented Multi-Layer Perceptrons (GA-MLPs)は、まずグラフ上の特定のマルチホップ演算子でノード機能を拡張する。
我々は,GA-MLPとGNNの表現力の分離を証明し,指数関数的に成長することを示す。
論文 参考訳(メタデータ) (2020-10-28T17:59:59Z) - How Neural Networks Extrapolate: From Feedforward to Graph Neural
Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。
グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文 参考訳(メタデータ) (2020-09-24T17:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。