論文の概要: LeanKAN: A Parameter-Lean Kolmogorov-Arnold Network Layer with Improved Memory Efficiency and Convergence Behavior
- arxiv url: http://arxiv.org/abs/2502.17844v1
- Date: Tue, 25 Feb 2025 04:43:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:33.419880
- Title: LeanKAN: A Parameter-Lean Kolmogorov-Arnold Network Layer with Improved Memory Efficiency and Convergence Behavior
- Title(参考訳): LeanKAN: メモリ効率と収束挙動を改善したパラメータリーンなKolmogorov-Arnoldネットワーク層
- Authors: Benjamin C. Koenig, Suyong Kim, Sili Deng,
- Abstract要約: Kolmogorov-Arnoldネットワーク(KAN)は、データ駆動モデリングのための多層パーセプトロン(MLP)に代わる有望な代替品である。
ここでは、MultKAN層が出力層において限定的な適用性に悩まされていることが分かる。
我々は、MultKANと従来のAddKANレイヤを直接かつモジュール的に置き換えるLeanKANを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The recently proposed Kolmogorov-Arnold network (KAN) is a promising alternative to multi-layer perceptrons (MLPs) for data-driven modeling. While original KAN layers were only capable of representing the addition operator, the recently-proposed MultKAN layer combines addition and multiplication subnodes in an effort to improve representation performance. Here, we find that MultKAN layers suffer from a few key drawbacks including limited applicability in output layers, bulky parameterizations with extraneous activations, and the inclusion of complex hyperparameters. To address these issues, we propose LeanKANs, a direct and modular replacement for MultKAN and traditional AddKAN layers. LeanKANs address these three drawbacks of MultKAN through general applicability as output layers, significantly reduced parameter counts for a given network structure, and a smaller set of hyperparameters. As a one-to-one layer replacement for standard AddKAN and MultKAN layers, LeanKAN is able to provide these benefits to traditional KAN learning problems as well as augmented KAN structures in which it serves as the backbone, such as KAN Ordinary Differential Equations (KAN-ODEs) or Deep Operator KANs (DeepOKAN). We demonstrate LeanKAN's simplicity and efficiency in a series of demonstrations carried out across both a standard KAN toy problem and a KAN-ODE dynamical system modeling problem, where we find that its sparser parameterization and compact structure serve to increase its expressivity and learning capability, leading it to outperform similar and even much larger MultKANs in various tasks.
- Abstract(参考訳): 最近提案されたコルモゴロフ・アルノルドネットワーク(KAN)は、データ駆動モデリングのための多層パーセプトロン(MLP)の代替として有望である。
元のkanレイヤは加算演算子のみを表現できるが、最近提案されたMultKANレイヤは加算と乗算サブノードを組み合わせて表現性能を向上させる。
ここでは,MultKAN層は,出力層への適用性に制限があること,外部アクティベーションを伴う偏差の偏差,複雑なハイパーパラメータの包含など,いくつかの重大な欠点に悩まされている。
これらの問題に対処するため、MultKANおよび従来のAddKANレイヤの直接的でモジュール化された代替品であるLeanKANを提案する。
LeanKANは、MultKANのこれらの3つの欠点に対処し、出力層としての一般適用性、与えられたネットワーク構造に対するパラメータ数を大幅に削減し、ハイパーパラメータのセットを小さくする。
標準AddKANとMultKANの1対1層を置き換えることで、LeanKANは従来のKAN学習問題や、KAN正規微分方程式(KAN-ODE)やDeep Operator Kans(Deepokan)といったバックボーンとして機能する拡張KAN構造にこれらのメリットを提供することができる。
本稿では,標準のkan 玩具問題と Kan-ODE 動的システムモデリング問題の両方において,LeanKAN の簡易性と効率性を実証し,スペーサーパラメータ化とコンパクトな構造が表現性と学習能力の向上に寄与し,様々なタスクにおいてMultKAN よりも優れ,さらに大きなMultKAN を上回ることを示した。
関連論文リスト
- PRKAN: Parameter-Reduced Kolmogorov-Arnold Networks [47.947045173329315]
Kolmogorov-Arnold Networks (KAN) は、ニューラルネットワークアーキテクチャの革新を象徴している。
Kansは、CNN、Recurrent Reduced Networks(RNN)、Transformerなどのモデルで、MLP(Multi-Layer Perceptrons)に代わる魅力的な代替手段を提供する。
本稿では,階層内のパラメータ数を削減するために複数の手法を用いたPRKANを導入し,ニューラルM層に匹敵する手法を提案する。
論文 参考訳(メタデータ) (2025-01-13T03:07:39Z) - Incorporating Arbitrary Matrix Group Equivariance into KANs [69.30866522377694]
我々は任意の行列群同変をkanに組み込む方法であるEquivariant Kolmogorov-Arnold Networks (EKAN)を提案する。
EKANは、粒子散乱や3体問題といった対称性に関連したタスクにおいて、より小さなデータセットやより少ないパラメータで高い精度を達成する。
論文 参考訳(メタデータ) (2024-10-01T06:34:58Z) - Kolmogorov-Arnold Transformer [72.88137795439407]
Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2024-09-16T17:54:51Z) - Activation Space Selectable Kolmogorov-Arnold Networks [29.450377034478933]
非線形加法接続に基づくKAN(Kolmogorov-Arnold Network)はセレクト法に匹敵する性能を発揮することが証明されている。
このような可能性にもかかわらず、単一のアクティベーション関数空間を使用すると、kanの性能が低下し、関連するタスクが異なる。
この研究は、新しいAIのデータ中心設計の理解に寄与し、kanベースのネットワークアーキテクチャにおけるイノベーションの基礎となる参照を提供する。
論文 参考訳(メタデータ) (2024-08-15T11:34:05Z) - KAN we improve on HEP classification tasks? Kolmogorov-Arnold Networks applied to an LHC physics example [0.08192907805418582]
Kolmogorov-Arnold Networks (KAN) は多層パーセプトロンの代替として提案されている。
高エネルギー物理における二項イベント分類の典型的な課題について検討する。
1層カンの学習活性化関数は入力特徴の対数類似度に類似していることが判明した。
論文 参考訳(メタデータ) (2024-08-05T18:01:07Z) - Explaining Modern Gated-Linear RNNs via a Unified Implicit Attention Formulation [54.50526986788175]
効率的なシーケンスモデリングの最近の進歩は、Mamba、RWKV、および様々なゲートRNNのような注意のないレイヤーを生み出している。
我々はこれらのモデルの統一的なビューを示し、暗黙の因果自己注意層のような層を定式化する。
筆者らのフレームワークは,異なるレイヤに対する類似の基盤となるメカニズムを比較検討し,説明可能性の手法を直接適用する手段を提供する。
論文 参考訳(メタデータ) (2024-05-26T09:57:45Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。