論文の概要: AnchorFormer: Differentiable Anchor Attention for Efficient Vision Transformer
- arxiv url: http://arxiv.org/abs/2505.16463v1
- Date: Thu, 22 May 2025 09:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.204225
- Title: AnchorFormer: Differentiable Anchor Attention for Efficient Vision Transformer
- Title(参考訳): AnchorFormer:効率的な視覚変換器のための微分アンカーアテンション
- Authors: Jiquan Shan, Junxiao Wang, Lifeng Zhao, Liang Cai, Hongyuan Zhang, Ioannis Liritzis,
- Abstract要約: 本稿では,アンカートークンを用いたアンカーベースの効率的な視覚変換器(AnchorFormer)を提案する。
神経層内のニューロンでアンカーを表現することにより、これらの分布を微分可能とし、大域的自己注意を近似することができる。
実験では、AnchorFormerの有効性を示し、ImageNet分類における9.0%の精度または46.7%のFLOPs削減を実現した。
- 参考スコア(独自算出の注目度): 13.945118817568366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, vision transformers (ViTs) have achieved excellent performance on vision tasks by measuring the global self-attention among the image patches. Given $n$ patches, they will have quadratic complexity such as $\mathcal{O}(n^2)$ and the time cost is high when splitting the input image with a small granularity. Meanwhile, the pivotal information is often randomly gathered in a few regions of an input image, some tokens may not be helpful for the downstream tasks. To handle this problem, we introduce an anchor-based efficient vision transformer (AnchorFormer), which employs the anchor tokens to learn the pivotal information and accelerate the inference. Firstly, by estimating the bipartite attention between the anchors and tokens, the complexity will be reduced from $\mathcal{O}(n^2)$ to $\mathcal{O}(mn)$, where $m$ is an anchor number and $m < n$. Notably, by representing the anchors with the neurons in a neural layer, we can differentiable learn these distributions and approximate global self-attention through the Markov process. Moreover, we extend the proposed model to three downstream tasks including classification, detection, and segmentation. Extensive experiments show the effectiveness of our AnchorFormer, e.g., achieving up to a 9.0% higher accuracy or 46.7% FLOPs reduction on ImageNet classification, 81.3% higher mAP on COCO detection under comparable FLOPs, as compared to the current baselines.
- Abstract(参考訳): 近年、視覚変換器(ViT)は、画像パッチ間のグローバルな自己意識を測定することで、視覚タスクにおいて優れたパフォーマンスを実現している。
n$パッチが与えられた場合、$\mathcal{O}(n^2)$のような二次的な複雑さを持ち、入力イメージを小さな粒度で分割する場合、時間コストが高い。
一方、重要な情報は入力画像のいくつかの領域にランダムに収集されることが多いが、いくつかのトークンは下流のタスクには役に立たないかもしれない。
この問題を解決するために,アンカートークンを用いたアンカーベースの効率的な視覚変換器(AnchorFormer)を導入する。
まず、アンカーとトークンの間の二部的な注意を見積もることで、複雑さを$\mathcal{O}(n^2)$から$\mathcal{O}(mn)$に減らし、$m$はアンカー番号と$m < n$となる。
特に、神経層内のニューロンでアンカーを表現することにより、これらの分布を微分可能とし、マルコフ過程を通じて大域的自己注意を近似することができる。
さらに,提案手法を分類,検出,セグメンテーションを含む3つの下流タスクに拡張する。
大規模な実験では、画像ネット分類における最大9.0%の精度または46.7%のFLOPs削減を達成するAnchorFormerの有効性が示され、現在のベースラインと比較して、同等のFLOPsでCOCO検出において81.3%のmAPが得られた。
関連論文リスト
- Multi-Scale And Token Mergence: Make Your ViT More Efficient [3.087140219508349]
Vision Transformer (ViT) はコンピュータビジョン領域において一般的なモデルとして登場した。
より重要なトークンとマージすることで,非機密トークンからの情報を保持できる新しいトークンプルーニング手法を提案する。
提案手法は,DeiT-Sの精度は0.1%しか低下せず,計算コストの33%の大幅な削減を実現している。
論文 参考訳(メタデータ) (2023-06-08T02:58:15Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。
浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文 参考訳(メタデータ) (2022-11-21T03:48:13Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - KVT: k-NN Attention for Boosting Vision Transformers [44.189475770152185]
我々は、視力変換器の強化を目的とした、k-NNアテンションと呼ばれるスパースアテンション方式を提案する。
提案したk-NNアテンションは、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。
理論的にも経験的にも、$k$-NNの注意力は入力トークンからのノイズの蒸留やトレーニングの高速化に有効である。
論文 参考訳(メタデータ) (2021-05-28T06:49:10Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。