論文の概要: Vision KAN: Towards an Attention-Free Backbone for Vision with Kolmogorov-Arnold Networks
- arxiv url: http://arxiv.org/abs/2601.21541v1
- Date: Thu, 29 Jan 2026 10:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.747508
- Title: Vision KAN: Towards an Attention-Free Backbone for Vision with Kolmogorov-Arnold Networks
- Title(参考訳): Vision Kan: Kolmogorov-Arnold Networksによるビジョン用無注意バックボーンの実現
- Authors: Zhuoqin Yang, Jiansong Zhang, Xiaoling Luo, Xu Wu, Zheng Lu, Linlin Shen,
- Abstract要約: 我々は,Kolmogorov-Arnold Networksにインスパイアされた無注意バックボーンであるVision Kanを紹介する。
コアとなるMultiPatch-RBFKANは(a)パッチワイド非線形変換とラジアル基底関数に基づくkansを組み合わせた統一トークンミキサーである。
ImageNet-1Kの実験では、ViKは線形複雑性と競合する精度を達成している。
- 参考スコア(独自算出の注目度): 43.012291344355596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention mechanisms have become a key module in modern vision backbones due to their ability to model long-range dependencies. However, their quadratic complexity in sequence length and the difficulty of interpreting attention weights limit both scalability and clarity. Recent attention-free architectures demonstrate that strong performance can be achieved without pairwise attention, motivating the search for alternatives. In this work, we introduce Vision KAN (ViK), an attention-free backbone inspired by the Kolmogorov-Arnold Networks. At its core lies MultiPatch-RBFKAN, a unified token mixer that combines (a) patch-wise nonlinear transform with Radial Basis Function-based KANs, (b) axis-wise separable mixing for efficient local propagation, and (c) low-rank global mapping for long-range interaction. Employing as a drop-in replacement for attention modules, this formulation tackles the prohibitive cost of full KANs on high-resolution features by adopting a patch-wise grouping strategy with lightweight operators to restore cross-patch dependencies. Experiments on ImageNet-1K show that ViK achieves competitive accuracy with linear complexity, demonstrating the potential of KAN-based token mixing as an efficient and theoretically grounded alternative to attention.
- Abstract(参考訳): 注意機構は、長距離依存をモデル化する能力のため、現代のビジョンバックボーンにおいて重要なモジュールになっている。
しかしながら、シーケンス長の2次複雑さと注意重みの解釈の難しさは、スケーラビリティと明快さの両方を制限している。
近年の注目のないアーキテクチャは、強い性能を両立せずに達成できることを示し、代替品の探索を動機付けている。
本研究では,Kolmogorov-Arnold Networks にインスパイアされた無注意バックボーンである Vision Kan (ViK) を紹介する。
コアとなるMultiPatch-RBFKANは、組み合わせた統一トークンミキサーである。
(a)ラジアル基底関数を用いたパッチワイド非線形変換
(b)効率的な局所伝播のための軸方向分離可能な混合、及び
(c)長距離対話のための低ランクグローバルマッピング。
注意モジュールのドロップイン代替としてこの定式化は、パッチワイドなグループ化戦略を採用し、パッチ間の依存関係を復元することで、完全なkanの高解像度機能に対する禁止的なコストに対処する。
ImageNet-1Kの実験では、ViKは線形複雑性と競合する精度を達成し、Kanベースのトークンミキシングが注意の代替として効率的で理論的に根拠づけられた可能性を示している。
関連論文リスト
- A Lightweight Convolution and Vision Transformer integrated model with Multi-scale Self-attention Mechanism [41.02402160100821]
Vision Transformer (ViT) は、長距離依存モデリング能力の強いコンピュータビジョンタスクで普及している。
本稿では,細かな注意(SAEViTと呼ばれる)と畳み込みブロックを持つ効率的なViTモデルを提案する。
主流データセットの実験では、SAEViTはImageNet-1K分類タスクで76.3%と79.6%のTop-1アキュラシーを達成した。
論文 参考訳(メタデータ) (2025-08-23T03:05:34Z) - Spiking Meets Attention: Efficient Remote Sensing Image Super-Resolution with Attention Spiking Neural Networks [86.28783985254431]
従来の人工ニューラルネットワーク(ANN)の代替手段としてスパイキングニューラルネットワーク(SNN)が登場
本稿では,AID,DOTA,DIORなどのリモートセンシングベンチマークにおいて,最先端の性能を実現するSpikeSRを提案する。
論文 参考訳(メタデータ) (2025-03-06T09:06:06Z) - iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency [0.5497663232622965]
iANETは、長距離依存のモデリングを改善するために設計された、効率的なハイブリッド視覚バックボーンである。
iiANETの中核となる革新は、iiABlockである。これは、グローバルなr-MHSA(Multi-Head Self-Attention)とパリルルにおける畳み込みレイヤを内部で記述する、統一されたビルディングブロックである。
論文 参考訳(メタデータ) (2024-07-10T12:39:02Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - DynaSeg: A Deep Dynamic Fusion Method for Unsupervised Image Segmentation Incorporating Feature Similarity and Spatial Continuity [0.5755004576310334]
我々は、革新的な教師なしイメージセグメンテーションアプローチであるDynaSegを紹介する。
従来の方法とは異なり、DynaSegは画像の特徴に柔軟に対応する動的重み付け方式を採用している。
DynaSegは、予測されたクラスタ数が1つに収束する可能性のある、過小評価の失敗を防ぐ。
論文 参考訳(メタデータ) (2024-05-09T00:30:45Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。