論文の概要: Kolmogorov-Arnold Transformer
- arxiv url: http://arxiv.org/abs/2409.10594v1
- Date: Mon, 16 Sep 2024 17:54:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 20:59:28.861393
- Title: Kolmogorov-Arnold Transformer
- Title(参考訳): Kolmogorov-Arnold変換器
- Authors: Xingyi Yang, Xinchao Wang,
- Abstract要約: Kolmogorov-Arnold Transformer(KAT)は,階層をKAN(Kolmogorov-Arnold Network)層に置き換える新しいアーキテクチャである。
C1)基本関数,(C2)非効率,(C3)重みの3つの主要な課題を特定する。
これらの設計により、KATは従来のトランスフォーマーよりも優れている。
- 参考スコア(独自算出の注目度): 72.88137795439407
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformers stand as the cornerstone of mordern deep learning. Traditionally, these models rely on multi-layer perceptron (MLP) layers to mix the information between channels. In this paper, we introduce the Kolmogorov-Arnold Transformer (KAT), a novel architecture that replaces MLP layers with Kolmogorov-Arnold Network (KAN) layers to enhance the expressiveness and performance of the model. Integrating KANs into transformers, however, is no easy feat, especially when scaled up. Specifically, we identify three key challenges: (C1) Base function. The standard B-spline function used in KANs is not optimized for parallel computing on modern hardware, resulting in slower inference speeds. (C2) Parameter and Computation Inefficiency. KAN requires a unique function for each input-output pair, making the computation extremely large. (C3) Weight initialization. The initialization of weights in KANs is particularly challenging due to their learnable activation functions, which are critical for achieving convergence in deep neural networks. To overcome the aforementioned challenges, we propose three key solutions: (S1) Rational basis. We replace B-spline functions with rational functions to improve compatibility with modern GPUs. By implementing this in CUDA, we achieve faster computations. (S2) Group KAN. We share the activation weights through a group of neurons, to reduce the computational load without sacrificing performance. (S3) Variance-preserving initialization. We carefully initialize the activation weights to make sure that the activation variance is maintained across layers. With these designs, KAT scales effectively and readily outperforms traditional MLP-based transformers.
- Abstract(参考訳): トランスフォーマーは、mordern Deep Learningの基盤として立ちます。
伝統的に、これらのモデルはチャネル間で情報を混合するために多層パーセプトロン(MLP)層に依存している。
本稿では,MLP層をコルモゴロフ・アルノルドネットワーク(KAN)層に置き換え,表現性と性能を向上させる新しいアーキテクチャであるコルモゴロフ・アルノルド変換器(KAT)を紹介する。
しかし、Kansをトランスに組み込むことは、特にスケールアップでは容易ではない。
具体的には、(C1)基本関数の3つの重要な課題を特定する。
Kansで使用される標準的なB-spline関数は、現代のハードウェア上での並列コンピューティングに最適化されていないため、推論速度が遅くなる。
(C2)
パラメータと計算の非効率性。
Kanは入力と出力のペアごとにユニークな関数を必要とし、計算を極端に大きくする。
(C3)
重量初期化。
Kansにおけるウェイトの初期化は、深層ニューラルネットワークの収束を達成する上で重要な、学習可能なアクティベーション関数のため、特に困難である。
上記の課題を克服するために、我々は3つの重要な解決策を提案する。
最新のGPUとの互換性を改善するために,B-スプライン関数を合理的関数に置き換える。
CUDAでこれを実装することにより、より高速な計算が可能となる。
(S2)
KAグループ。
我々は、ニューロン群を通じて活性化重量を共有し、性能を犠牲にすることなく計算負荷を削減する。
(S3)
変数保存初期化。
活性化重みを慎重に初期化して、活性化分散が層間で維持されるようにします。
これらの設計により、KATは効率よく、かつ容易に従来のMLPベースのトランスフォーマーより優れている。
関連論文リスト
- Dynamic layer selection in decoder-only transformers [21.18795712840146]
自然言語生成のための2つの一般的な動的推論手法を実証的に検討する。
トレーニング済みのデコーダのみのモデルでは,層スキップによる層除去が著しく堅牢であることがわかった。
また、シーケンス毎の動的計算割り当ては、大きな効率向上を約束することを示す。
論文 参考訳(メタデータ) (2024-10-26T00:44:11Z) - Efficient Point Transformer with Dynamic Token Aggregating for Point Cloud Processing [19.73918716354272]
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
ModelNet40、ShapeNet、航空機搭載MultiSpectral LiDAR(MS-LiDAR)データセット上の前点変換器よりも最大30$times$高速でSOTAパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z) - TCCT: Tightly-Coupled Convolutional Transformer on Time Series
Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。
実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文 参考訳(メタデータ) (2021-08-29T08:49:31Z) - Improving Convolutional Neural Networks Via Conservative Field
Regularisation and Integration [3.5665681694253903]
グリーン関数 (GF) は、保守的かつ物理的に解釈可能であることを強制することによって、2Dまたは3D特徴空間を規則化する最初の操作である。
その結果、このような正規化により、ネットワークはより速く学習でき、スムーズなトレーニング曲線を持ち、パラメータを加味せずにより一般化できることがわかった。
論文 参考訳(メタデータ) (2020-03-11T09:29:48Z) - A Spike in Performance: Training Hybrid-Spiking Neural Networks with
Quantized Activation Functions [6.574517227976925]
Spiking Neural Network(SNN)は、エネルギー効率の高いコンピューティングに対する有望なアプローチである。
我々は、非スパイキングネットワークをSNNに変換する際に、最先端の精度を維持する方法を示す。
論文 参考訳(メタデータ) (2020-02-10T05:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。