論文の概要: Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?
- arxiv url: http://arxiv.org/abs/2503.10632v2
- Date: Wed, 28 May 2025 16:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:33.494663
- Title: Kolmogorov-Arnold Attention: Is Learnable Attention Better For Vision Transformers?
- Title(参考訳): Kolmogorov-Arnold氏の注意: ビジョントランスフォーマーにとって学習可能な注意はより良いか?
- Authors: Subhajit Maity, Killian Hitsman, Xin Li, Aritra Dutta,
- Abstract要約: Kolmogorov-Arnoldネットワーク(KAN)は、学習可能なアクティベーション関数からなる驚くべきイノベーションである。
我々は,任意の方法で動作可能なViTに対して,Kolmogorov-Arnold Attention (KArAt) と呼ばれる学習可能な最初の注意を設計する。
- 参考スコア(独自算出の注目度): 5.2768199606089095
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Kolmogorov-Arnold networks (KANs) are a remarkable innovation consisting of learnable activation functions with the potential to capture more complex relationships from data. Presently, KANs are deployed by replacing multilayer perceptrons (MLPs) in deep networks, including advanced architectures such as vision Transformers (ViTs). This work asks whether a similar replacement in the attention can bring benefits. In this paper, we design the first learnable attention called Kolmogorov-Arnold Attention (KArAt) for ViTs that can operate on any basis, ranging from Fourier, Wavelets, Splines, to Rational Functions. However, learnable activations in attention cause a memory explosion. To remedy this, we propose a modular version of KArAt that uses a low-rank approximation. By adopting the Fourier basis, Fourier-KArAt and its variants, in some cases, outperform their traditional softmax counterparts, or show comparable performance on CIFAR-10, CIFAR-100, and ImageNet-1K datasets. We also deploy Fourier KArAt to ConViT and Swin-Transformer, and use it in detection and segmentation with ViT-Det. We dissect these architectures' performance by analyzing their loss landscapes, weight distributions, optimizer path, attention visualization, and transferability to other datasets. KArAt's learnable activation shows a better attention score across all ViTs, indicating better token-to-token interactions, contributing to better inference. Still, its generalizability does not scale with larger ViTs. However, many factors, including the present computing interface, affect the performance of parameter- and memory-heavy KArAts. We note that the goal of this paper is not to produce efficient attention or challenge the traditional activations; by designing KArAt, we are the first to show that attention can be learned and encourage researchers to explore KArAt in conjunction with more advanced architectures.
- Abstract(参考訳): Kolmogorov-Arnoldネットワーク(KAN)は、学習可能なアクティベーション関数と、データからより複雑な関係を捉える能力を備えた驚くべきイノベーションである。
現在では、ビジョントランスフォーマー(ViT)などの高度なアーキテクチャを含む、ディープネットワーク内の多層パーセプトロン(MLP)を置き換えることで、kanがデプロイされている。
この作業は、注意に類似した置き換えが利益をもたらすかどうかを問うものだ。
本稿では,Fourier,Wavelets,Splines,Rational Functionsなど,任意の方法で動作可能なViTに対して,Kolmogorov-Arnold Attention (KArAt) と呼ばれる学習可能な最初の注意を設計する。
しかし、学習可能な注意の活性化は記憶の爆発を引き起こす。
そこで我々は,低ランク近似を用いたKArAtのモジュラーバージョンを提案する。
Fourierベースを採用することで、Fourier-KArAtとその変種は、従来のソフトマックスよりも優れているか、CIFAR-10、CIFAR-100、ImageNet-1Kデータセットで同等のパフォーマンスを示している。
また、Fourier KArAtをConViTとSwin-Transformerにデプロイし、ViT-Detによる検出とセグメンテーションに使用します。
これらのアーキテクチャのパフォーマンスを、損失ランドスケープ、重量分布、オプティマイザパス、アテンションビジュアライゼーション、他のデータセットへの転送可能性などを分析して判別する。
KArAtの学習可能なアクティベーションは、すべてのViTに対してより良い注意スコアを示し、トークン対トークンのインタラクションが向上し、推論が向上することを示している。
それでも、その一般化性はより大きなViTではスケールしない。
しかし、現在のコンピューティングインタフェースを含む多くの要因がパラメータ重およびメモリ重のKArAtの性能に影響を及ぼす。
本稿の目的は,KArAtの設計によって,より高度なアーキテクチャとともに,研究者がKArAtの探索を奨励できることを最初に示すことである。
関連論文リスト
- CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - DuoFormer: Leveraging Hierarchical Visual Representations by Local and Global Attention [1.5624421399300303]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化を通じてトランスフォーマー入力に適合する。
論文 参考訳(メタデータ) (2024-07-18T22:15:35Z) - Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
トランスフォーマーアーキテクチャにおけるMHSAの代替として,Fibottentionと呼ばれる新しいマルチヘッド自己アテンション(MHSA)モデルを提案する。
フィボテンションはデータ効率が高く、標準的なMHSAよりも大量のトークンを処理するのに適している。
拡張されたフィボナッチ配列に基づいて、構造化されたスパークアテンションを採用しており、ユニークなことに、アテンションヘッドによって異なる。
論文 参考訳(メタデータ) (2024-06-27T17:59:40Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Enhancing Performance of Vision Transformers on Small Datasets through
Local Inductive Bias Incorporation [13.056764072568749]
ビジョントランスフォーマー(ViT)は、大規模なデータセットでは顕著なパフォーマンスを達成するが、小さなデータセットでは畳み込みニューラルネットワーク(CNN)よりもパフォーマンスが悪くなる傾向がある。
本稿では、パッチレベルのローカル情報を抽出し、ViTの自己保持ブロックで使用される埋め込みに組み込む、ローカルInFormation Enhancer (LIFE) と呼ばれるモジュールを提案する。
提案するモジュールはメモリと効率が良く, 分類や蒸留トークンなどの補助トークンを処理できるほど柔軟である。
論文 参考訳(メタデータ) (2023-05-15T11:23:18Z) - RIFormer: Keep Your Vision Backbone Effective While Removing Token Mixer [95.71132572688143]
本稿では,基本構造ブロックのトークンミキサーを除去しながら,視覚バックボーンを効果的に維持する方法について検討する。
視覚変換器(ViT)の自己アテンション(自己アテンション)としてのトークンミキサーは、異なる空間トークン間での情報通信を行うが、かなりの計算コストと遅延に悩まされる。
論文 参考訳(メタデータ) (2023-04-12T07:34:13Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - Improving Sample Efficiency of Value Based Models Using Attention and
Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。
状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。
我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-01T19:03:03Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Hybrid BYOL-ViT: Efficient approach to deal with small Datasets [0.0]
本稿では,ラベルなしデータの強大かつ十分な増大を伴う自己超越が,ニューラルネットワークの第1層を効果的に学習する方法について検討する。
自己教師型アーキテクチャから派生した低レベルの特徴は、この創発的アーキテクチャの堅牢性と全体的な性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2021-11-08T21:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。