Fugu-MT 論文翻訳(概要): SG-Former: Self-guided Transformer with Evolving Token Reallocation

論文の概要: SG-Former: Self-guided Transformer with Evolving Token Reallocation

arxiv url: http://arxiv.org/abs/2308.12216v1
Date: Wed, 23 Aug 2023 15:52:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-24 13:37:24.083825
Title: SG-Former: Self-guided Transformer with Evolving Token Reallocation
Title（参考訳）: sg-former:トークン再配置を進化させた自己誘導トランスフォーマー
Authors: Sucheng Ren, Xingyi Yang, Songhua Liu, Xinchao Wang
Abstract要約: 本稿では,適応的な微粒化を伴う効果的なグローバル自己注意に向けて,自己誘導変換器と呼ばれる新しいモデルを提案する。我々は、細かな注意を得られるために、細かな領域により多くのトークンを割り当てる一方で、効率とグローバルな受容場と引き換えに、小さな領域に少ないトークンを割り当てる。提案したSG-Formerは,最先端技術よりも優れたパフォーマンスを実現している。我々のベースサイズモデルは,ImageNet-1K上のTop-1精度,textbf51.2mAP BBAP on CoCo, textbf52.7mIoU
参考スコア（独自算出の注目度）: 89.9363449724261
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision Transformer has demonstrated impressive success across various vision tasks. However, its heavy computation cost, which grows quadratically with respect to the token sequence length, largely limits its power in handling large feature maps. To alleviate the computation cost, previous works rely on either fine-grained self-attentions restricted to local small regions, or global self-attentions but to shorten the sequence length resulting in coarse granularity. In this paper, we propose a novel model, termed as Self-guided Transformer~(SG-Former), towards effective global self-attention with adaptive fine granularity. At the heart of our approach is to utilize a significance map, which is estimated through hybrid-scale self-attention and evolves itself during training, to reallocate tokens based on the significance of each region. Intuitively, we assign more tokens to the salient regions for achieving fine-grained attention, while allocating fewer tokens to the minor regions in exchange for efficiency and global receptive fields. The proposed SG-Former achieves performance superior to state of the art: our base size model achieves \textbf{84.7\%} Top-1 accuracy on ImageNet-1K, \textbf{51.2mAP} bbAP on CoCo, \textbf{52.7mIoU} on ADE20K surpassing the Swin Transformer by \textbf{+1.3\% / +2.7 mAP/ +3 mIoU}, with lower computation costs and fewer parameters. The code is available at \href{https://github.com/OliverRensu/SG-Former}{https://github.com/OliverRensu/SG-Former}
Abstract（参考訳）: Vision Transformerは様々なビジョンタスクで素晴らしい成功を収めた。しかし、その重い計算コストはトークンシーケンスの長さに対して二次的に増大し、大きな特徴マップを扱う際のパワーをほとんど制限している。計算コストを緩和するため、以前の研究では、局所小領域に制限された細粒度自己アテンションまたは大域的自己アテンションに頼るが、粗粒度をもたらすシーケンス長を短くする。本稿では,適応的な微粒化を伴う効果的なグローバル自己意識に向けて,自己誘導型トランスフォーマー~(SG-Former)と呼ばれる新しいモデルを提案する。この手法の核心は,ハイブリッド・スケール・セルフ・アテンションによって推定され,トレーニング中に自ら進化し,各領域の重要度に基づいてトークンを再配置する重要度マップを利用することである。直感的には、より詳細な注意を向けるために、より多くのトークンをサルエントリージョンに割り当てる一方で、効率とグローバル受容フィールドと引き換えに、マイナーリージョンに少ないトークンを割り当てる。ベースサイズモデルは ImageNet-1K 上の Top-1 精度, CoCo 上の \textbf{51.2mAP} bbAP, ADE20K 上の \textbf{52.7mIoU} の \textbf{+1.3\% / +2.7 mAP/ +3 mIoU} の Swin Transformer を上回った。コードは \href{https://github.com/OliverRensu/SG-Former}{https://github.com/OliverRensu/SG-Former} で入手できる。

関連論文リスト

S2AFormer: Strip Self-Attention for Efficient Vision Transformer [37.930090368513355]
Vision Transformer (ViT) はコンピュータビジョンにおいて大きな進歩を遂げた。最近の手法は、より良いトレードオフを達成するために、畳み込みの強みと自己意識を組み合わせる。 SSA(Strip Self-Attention)を特徴とする効率的な視覚変換器アーキテクチャであるS2AFormerを提案する。
論文参考訳（メタデータ） (2025-05-28T10:17:23Z)
SGFormer: Simplifying and Empowering Transformers for Large-Graph Representations [75.71298846760303]
ノード特性予測ベンチマークにおいて,一層注意が驚くほど高い性能を示すことを示す。提案手法をSGFormer (Simplified Graph Transformer) と呼ぶ。提案手法は,大きなグラフ上にトランスフォーマーを構築する上で,独立性のある新たな技術パスを啓蒙するものである。
論文参考訳（メタデータ） (2023-06-19T08:03:25Z)
Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文参考訳（メタデータ） (2023-03-15T15:12:36Z)
Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文参考訳（メタデータ） (2022-11-21T03:48:13Z)
UniFormer: Unifying Convolution and Self-attention for Visual Recognition [69.68907941116127]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、ここ数年で主要なフレームワークである。コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合する新しいUnified TransFormer(UniFormer)を提案する。我々のUniFormerはImageNet-1K分類において86.3トップ1の精度を実現している。
論文参考訳（メタデータ） (2022-01-24T04:39:39Z)
Pale Transformer: A General Vision Transformer Backbone with Pale-Shaped Attention [28.44439386445018]
そこで我々は,淡い形の領域内で自己注意を行うPale-Shaped Self-Attentionを提案する。グローバルな自己アテンションと比較すると、PS-Attentionは計算とメモリコストを大幅に削減できる。モデルサイズ22M, 48M, 85Mで, 83.4%, 84.3%, 84.9%のTop-1精度を実現する。
論文参考訳（メタデータ） (2021-12-28T05:37:24Z)
Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。 SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文参考訳（メタデータ） (2021-11-30T08:08:47Z)
Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文参考訳（メタデータ） (2021-07-10T02:34:55Z)
CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文参考訳（メタデータ） (2021-07-01T17:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。