論文の概要: SG-Former: Self-guided Transformer with Evolving Token Reallocation
- arxiv url: http://arxiv.org/abs/2308.12216v1
- Date: Wed, 23 Aug 2023 15:52:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 13:37:24.083825
- Title: SG-Former: Self-guided Transformer with Evolving Token Reallocation
- Title(参考訳): sg-former:トークン再配置を進化させた自己誘導トランスフォーマー
- Authors: Sucheng Ren, Xingyi Yang, Songhua Liu, Xinchao Wang
- Abstract要約: 本稿では,適応的な微粒化を伴う効果的なグローバル自己注意に向けて,自己誘導変換器と呼ばれる新しいモデルを提案する。
我々は、細かな注意を得られるために、細かな領域により多くのトークンを割り当てる一方で、効率とグローバルな受容場と引き換えに、小さな領域に少ないトークンを割り当てる。
提案したSG-Formerは,最先端技術よりも優れたパフォーマンスを実現している。我々のベースサイズモデルは,ImageNet-1K上のTop-1精度,textbf51.2mAP BBAP on CoCo, textbf52.7mIoU
- 参考スコア(独自算出の注目度): 89.9363449724261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer has demonstrated impressive success across various vision
tasks. However, its heavy computation cost, which grows quadratically with
respect to the token sequence length, largely limits its power in handling
large feature maps. To alleviate the computation cost, previous works rely on
either fine-grained self-attentions restricted to local small regions, or
global self-attentions but to shorten the sequence length resulting in coarse
granularity. In this paper, we propose a novel model, termed as Self-guided
Transformer~(SG-Former), towards effective global self-attention with adaptive
fine granularity. At the heart of our approach is to utilize a significance
map, which is estimated through hybrid-scale self-attention and evolves itself
during training, to reallocate tokens based on the significance of each region.
Intuitively, we assign more tokens to the salient regions for achieving
fine-grained attention, while allocating fewer tokens to the minor regions in
exchange for efficiency and global receptive fields. The proposed SG-Former
achieves performance superior to state of the art: our base size model achieves
\textbf{84.7\%} Top-1 accuracy on ImageNet-1K, \textbf{51.2mAP} bbAP on CoCo,
\textbf{52.7mIoU} on ADE20K surpassing the Swin Transformer by \textbf{+1.3\% /
+2.7 mAP/ +3 mIoU}, with lower computation costs and fewer parameters. The code
is available at
\href{https://github.com/OliverRensu/SG-Former}{https://github.com/OliverRensu/SG-Former}
- Abstract(参考訳): Vision Transformerは様々なビジョンタスクで素晴らしい成功を収めた。
しかし、その重い計算コストはトークンシーケンスの長さに対して二次的に増大し、大きな特徴マップを扱う際のパワーをほとんど制限している。
計算コストを緩和するため、以前の研究では、局所小領域に制限された細粒度自己アテンションまたは大域的自己アテンションに頼るが、粗粒度をもたらすシーケンス長を短くする。
本稿では,適応的な微粒化を伴う効果的なグローバル自己意識に向けて,自己誘導型トランスフォーマー~(SG-Former)と呼ばれる新しいモデルを提案する。
この手法の核心は,ハイブリッド・スケール・セルフ・アテンションによって推定され,トレーニング中に自ら進化し,各領域の重要度に基づいてトークンを再配置する重要度マップを利用することである。
直感的には、より詳細な注意を向けるために、より多くのトークンをサルエントリージョンに割り当てる一方で、効率とグローバル受容フィールドと引き換えに、マイナーリージョンに少ないトークンを割り当てる。
ベースサイズモデルは ImageNet-1K 上の Top-1 精度, CoCo 上の \textbf{51.2mAP} bbAP, ADE20K 上の \textbf{52.7mIoU} の \textbf{+1.3\% / +2.7 mAP/ +3 mIoU} の Swin Transformer を上回った。
コードは \href{https://github.com/OliverRensu/SG-Former}{https://github.com/OliverRensu/SG-Former} で入手できる。
関連論文リスト
- SGFormer: Simplifying and Empowering Transformers for Large-Graph
Representations [78.97396248946174]
ノード特性予測ベンチマークにおいて,一層注意が驚くほど高い性能を示すことを示す。
提案手法をSGFormer (Simplified Graph Transformer) と呼ぶ。
提案手法は,大きなグラフ上にトランスフォーマーを構築する上で,独立性のある新たな技術パスを啓蒙するものである。
論文 参考訳(メタデータ) (2023-06-19T08:03:25Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。
浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文 参考訳(メタデータ) (2022-11-21T03:48:13Z) - UniFormer: Unifying Convolution and Self-attention for Visual
Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。
コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。
我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-01-24T04:39:39Z) - Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped
Attention [28.44439386445018]
そこで我々は,淡い形の領域内で自己注意を行うPale-Shaped Self-Attentionを提案する。
グローバルな自己アテンションと比較すると、PS-Attentionは計算とメモリコストを大幅に削減できる。
モデルサイズ22M, 48M, 85Mで, 83.4%, 84.3%, 84.9%のTop-1精度を実現する。
論文 参考訳(メタデータ) (2021-12-28T05:37:24Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。