論文の概要: Vision Transformer with Super Token Sampling
- arxiv url: http://arxiv.org/abs/2211.11167v2
- Date: Thu, 25 Jan 2024 08:23:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 18:48:00.017016
- Title: Vision Transformer with Super Token Sampling
- Title(参考訳): スーパートーケンサンプリングを用いた視覚変換器
- Authors: Huaibo Huang, Xiaoqiang Zhou, Jie Cao, Ran He, Tieniu Tan
- Abstract要約: 多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。
浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
- 参考スコア(独自算出の注目度): 93.70963123497327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformer has achieved impressive performance for many vision tasks.
However, it may suffer from high redundancy in capturing local features for
shallow layers. Local self-attention or early-stage convolutions are thus
utilized, which sacrifice the capacity to capture long-range dependency. A
challenge then arises: can we access efficient and effective global context
modeling at the early stages of a neural network? To address this issue, we
draw inspiration from the design of superpixels, which reduces the number of
image primitives in subsequent processing, and introduce super tokens into
vision transformer. Super tokens attempt to provide a semantically meaningful
tessellation of visual content, thus reducing the token number in
self-attention as well as preserving global modeling. Specifically, we propose
a simple yet strong super token attention (STA) mechanism with three steps: the
first samples super tokens from visual tokens via sparse association learning,
the second performs self-attention on super tokens, and the last maps them back
to the original token space. STA decomposes vanilla global attention into
multiplications of a sparse association map and a low-dimensional attention,
leading to high efficiency in capturing global dependencies. Based on STA, we
develop a hierarchical vision transformer. Extensive experiments demonstrate
its strong performance on various vision tasks. In particular, without any
extra training data or label, it achieves 86.4% top-1 accuracy on ImageNet-1K
with less than 100M parameters. It also achieves 53.9 box AP and 46.8 mask AP
on the COCO detection task, and 51.9 mIOU on the ADE20K semantic segmentation
task. Code is released at https://github.com/hhb072/STViT.
- Abstract(参考訳): 視覚トランスフォーマーは多くの視覚タスクで素晴らしいパフォーマンスを達成しました。
しかし、浅い層で局所的な特徴を捉える場合、高い冗長性に苦しむ可能性がある。
これにより、局所的な自己注意または初期段階の畳み込みが利用され、長距離依存を捉える能力が犠牲になる。
ニューラルネットワークの初期段階において、効率的で効果的なグローバルコンテキストモデリングにアクセスできるか?
この問題に対処するため,スーパーピクセルの設計からインスピレーションを得て,その後の処理における画像プリミティブの数を削減し,視覚変換器にスーパートークンを導入する。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとするため、自己注意のトークン数を減らし、グローバルなモデリングを保存する。
具体的には、まず、疎結合学習によって視覚トークンからスーパートークンをサンプリングし、次に、スーパートークンを自己アテンションし、最後に元のトークン空間にマップする、という3つのステップで、単純だが強力なスーパートークンアテンション(STA)機構を提案する。
STAは、バニラのグローバルな注意をスパースアソシエーションマップと低次元の注意の掛け算に分解し、グローバルな依存関係の取得に高い効率をもたらす。
STAに基づいて階層型視覚変換器を開発する。
広範囲にわたる実験は、様々な視覚タスクで強力な性能を示す。
特に、追加のトレーニングデータやラベルなしで、100M以下のパラメータを持つImageNet-1Kで86.4%のトップ1精度を達成する。
また、COCO検出タスクでは53.9ボックスAPと46.8マスクAP、ADE20Kセマンティックセグメンテーションタスクでは51.9mIOUを達成している。
コードはhttps://github.com/hhb072/stvitでリリースされる。
関連論文リスト
- SG-Former: Self-guided Transformer with Evolving Token Reallocation [89.9363449724261]
本稿では,適応的な微粒化を伴う効果的なグローバル自己注意に向けて,自己誘導変換器と呼ばれる新しいモデルを提案する。
我々は、細かな注意を得られるために、細かな領域により多くのトークンを割り当てる一方で、効率とグローバルな受容場と引き換えに、小さな領域に少ないトークンを割り当てる。
提案したSG-Formerは,最先端技術よりも優れたパフォーマンスを実現している。我々のベースサイズモデルは,ImageNet-1K上のTop-1精度,textbf51.2mAP BBAP on CoCo, textbf52.7mIoU
論文 参考訳(メタデータ) (2023-08-23T15:52:45Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Not All Tokens Are Equal: Human-centric Visual Analysis via Token
Clustering Transformer [91.49837514935051]
我々はToken Clustering Transformer(TCFormer)と呼ばれる新しいビジョントランスを提案する。
TCTCerはトークンをプログレッシブクラスタリングによってマージし、トークンはフレキシブルな形状とサイズで異なる場所からマージすることができる。
実験によると、TCFormerは人間中心のさまざまなタスクやデータセットにおいて、一貫してその能力を上回っている。
論文 参考訳(メタデータ) (2022-04-19T05:38:16Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - KVT: k-NN Attention for Boosting Vision Transformers [44.189475770152185]
我々は、視力変換器の強化を目的とした、k-NNアテンションと呼ばれるスパースアテンション方式を提案する。
提案したk-NNアテンションは、畳み込み操作を導入することなくCNNの局所バイアスを自然に継承する。
理論的にも経験的にも、$k$-NNの注意力は入力トークンからのノイズの蒸留やトレーニングの高速化に有効である。
論文 参考訳(メタデータ) (2021-05-28T06:49:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。