論文の概要: S2AFormer: Strip Self-Attention for Efficient Vision Transformer
- arxiv url: http://arxiv.org/abs/2505.22195v1
- Date: Wed, 28 May 2025 10:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.546112
- Title: S2AFormer: Strip Self-Attention for Efficient Vision Transformer
- Title(参考訳): S2AFormer:効率的な視覚変換器のためのストリップセルフアテンション
- Authors: Guoan Xu, Wenfeng Huang, Wenjing Jia, Jiamao Li, Guangwei Gao, Guo-Jun Qi,
- Abstract要約: Vision Transformer (ViT) はコンピュータビジョンにおいて大きな進歩を遂げた。
最近の手法は、より良いトレードオフを達成するために、畳み込みの強みと自己意識を組み合わせる。
SSA(Strip Self-Attention)を特徴とする効率的な視覚変換器アーキテクチャであるS2AFormerを提案する。
- 参考スコア(独自算出の注目度): 37.930090368513355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) has made significant advancements in computer vision, thanks to its token mixer's sophisticated ability to capture global dependencies between all tokens. However, the quadratic growth in computational demands as the number of tokens increases limits its practical efficiency. Although recent methods have combined the strengths of convolutions and self-attention to achieve better trade-offs, the expensive pairwise token affinity and complex matrix operations inherent in self-attention remain a bottleneck. To address this challenge, we propose S2AFormer, an efficient Vision Transformer architecture featuring novel Strip Self-Attention (SSA). We design simple yet effective Hybrid Perception Blocks (HPBs) to effectively integrate the local perception capabilities of CNNs with the global context modeling of Transformer's attention mechanisms. A key innovation of SSA lies in its reducing the spatial dimensions of $K$ and $V$ while compressing the channel dimensions of $Q$ and $K$. This design significantly reduces computational overhead while preserving accuracy, striking an optimal balance between efficiency and effectiveness. We evaluate the robustness and efficiency of S2AFormer through extensive experiments on multiple vision benchmarks, including ImageNet-1k for image classification, ADE20k for semantic segmentation, and COCO for object detection and instance segmentation. Results demonstrate that S2AFormer achieves significant accuracy gains with superior efficiency in both GPU and non-GPU environments, making it a strong candidate for efficient vision Transformers.
- Abstract(参考訳): Vision Transformer (ViT) は、すべてのトークン間のグローバルな依存関係をキャプチャするトークンミキサーの洗練された能力のおかげで、コンピュータビジョンにおいて大きな進歩を遂げた。
しかし、トークンの数が増えるにつれて、計算要求の二次的な成長は、その実用的効率を制限している。
近年の手法では、より優れたトレードオフを達成するために、畳み込みと自己注意の強みが組み合わされているが、高額なトークン親和性と自己意識に固有の複雑な行列操作はボトルネックのままである。
この課題に対処するために,新しいStrip Self-Attention (SSA) を特徴とする効率的なビジョントランスフォーマーアーキテクチャであるS2AFormerを提案する。
我々は,CNNの局所認識能力とTransformerの注意機構のグローバルなコンテキストモデリングを効果的に統合するために,シンプルで効果的なハイブリッド知覚ブロック(HPB)を設計する。
SSAの重要な革新は、チャネル次元を$Q$と$K$に圧縮しながら、空間次元を$K$と$V$に下げることである。
この設計は精度を保ちながら計算オーバーヘッドを大幅に減らし、効率と効率の最適なバランスを保った。
我々は、画像分類のためのImageNet-1k、セマンティックセグメンテーションのためのADE20k、オブジェクト検出とインスタンスセグメンテーションのためのCOCOを含む複数のビジョンベンチマークにおいて、S2AFormerの堅牢性と効率を評価する。
その結果、S2AFormerはGPU環境と非GPU環境の両方において優れた効率で大幅な精度向上を実現し、効率的なビジョントランスフォーマーの候補となることが示されている。
関連論文リスト
- SAC-ViT: Semantic-Aware Clustering Vision Transformer with Early Exit [6.87425726793675]
Vision Transformer (ViT)はグローバルなモデリングに優れていますが、リソース制約のあるデバイスへのデプロイメントの課題に直面しています。
本稿では,セマンティック・アウェア・クラスタリング・ビジョン・トランス (SAC-ViT) を提案する。
論文 参考訳(メタデータ) (2025-02-27T02:24:22Z) - big.LITTLE Vision Transformer for Efficient Visual Recognition [34.015778625984055]
big.LITTLE Vision Transformerは、効率的な視覚認識を実現するための革新的なアーキテクチャである。
システムは、大きなパフォーマンスブロックとLITTLE効率ブロックの2つの異なるブロックで構成されている。
画像処理では,各トークンの重要度を判定し,それに応じて割り当てる。
論文 参考訳(メタデータ) (2024-10-14T08:21:00Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba [19.062950348441426]
本研究は、軽量モデル設計における視覚状態空間モデルの可能性を探究し、EfficientVMambaと呼ばれる新しい効率的なモデル変種を導入することを提案する。
我々のEfficientVMambaは、グローバルおよびローカルの両方の表現機能を利用するように設計されたビルディングブロックを構成する効率的なスキップサンプリングにより、アトラスベースの選択的スキャン手法を統合する。
実験の結果,EfficientVMambaは計算複雑性を縮小し,様々な視覚タスクの競合結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-15T02:48:47Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。