論文の概要: Global Context Vision Transformers
- arxiv url: http://arxiv.org/abs/2206.09959v1
- Date: Mon, 20 Jun 2022 18:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 13:30:06.770767
- Title: Global Context Vision Transformers
- Title(参考訳): グローバルコンテキストビジョン変換器
- Authors: Ali Hatamizadeh, Hongxu Yin, Jan Kautz, and Pavlo Molchanov
- Abstract要約: 本稿では,パラメータと計算利用量を高める新しいアーキテクチャであるグローバル・コンテクスト・ビジョン・トランスフォーマー(GC ViT)を提案する。
提案手法は,局所的な自己注意を伴うグローバルなコンテキスト自己注意モジュールを利用して,空間相互作用と短距離相互作用の両方を効果的にモデル化する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
- 参考スコア(独自算出の注目度): 84.25554653076341
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose global context vision transformer (GC ViT), a novel architecture
that enhances parameter and compute utilization. Our method leverages global
context self-attention modules, joint with local self-attention, to effectively
yet efficiently model both long and short-range spatial interactions, without
the need for expensive operations such as computing attention masks or shifting
local windows. In addition, we address the issue of lack of the inductive bias
in ViTs via proposing to use a modified fused inverted residual blocks in our
architecture. Our proposed GC ViT achieves state-of-the-art results across
image classification, object detection and semantic segmentation tasks. On
ImageNet-1K dataset for classification, the base, small and tiny variants of GC
ViT with $28$M, $51$M and $90$M parameters achieve $\textbf{83.2\%}$,
$\textbf{83.9\%}$ and $\textbf{84.4\%}$ Top-1 accuracy, respectively,
surpassing comparably-sized prior art such as CNN-based ConvNeXt and ViT-based
Swin Transformer by a large margin. Pre-trained GC ViT backbones in downstream
tasks of object detection, instance segmentation, and semantic segmentation
using MS COCO and ADE20K datasets outperform prior work consistently, sometimes
by large margins. Code available at https://github.com/NVlabs/GCViT.
- Abstract(参考訳): 本稿では,パラメータと計算利用性を向上させる新しいアーキテクチャであるglobal context vision transformer (gc vit)を提案する。
提案手法は,局所的な自己注意を伴うグローバルなコンテキスト自己注意モジュールを利用して,注目マスクの計算やローカルウィンドウの移動といった高価な操作を必要とせず,長期空間と短距離空間の相互作用を効果的にモデル化する。
さらに,vitsにおけるインダクティブバイアスの欠如の問題にも対処し,アーキテクチャに修正された逆ブロックを使用することを提案する。
提案するgc vitは画像分類,オブジェクト検出,セマンティクスセグメンテーションタスクにおいて最先端の結果を得る。
ImageNet-1K の分類用データセットでは、GC ViT のベース、小小、28$M、$1$M、$90$M のパラメータが$\textbf{83.2\%}$、$\textbf{83.9\%}$、$\textbf{84.4\%}$ Top-1 の精度をそれぞれ達成し、CNN ベースの ConvNeXt や ViT ベースの Swin Transformer のような比較可能なサイズの先行技術を上回る。
オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションといった下流タスクにおける事前訓練されたGC ViTバックボーンは、MS COCOとADE20Kデータセットを使用して、時には大きなマージンによって、前処理を一貫して上回る。
コードはhttps://github.com/nvlabs/gcvit。
関連論文リスト
- Depth-Wise Convolutions in Vision Transformers for Efficient Training on Small Datasets [11.95214938154427]
Vision Transformer (ViT)は、イメージをパッチに分割することで、グローバルな情報をキャプチャする。
ViTは、画像やビデオデータセットのトレーニング中に誘導バイアスを欠く。
本稿では,ViTモデルのショートカットとして,軽量なDepth-Wise Convolutionモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-28T04:23:40Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Lightweight Vision Transformer with Cross Feature Attention [6.103065659061625]
畳み込みニューラルネットワーク(CNN)は空間的帰納バイアスを利用して視覚表現を学習する。
ViTは自己認識メカニズムを使ってグローバルな表現を学ぶことができるが、通常は重く、モバイルデバイスには適さない。
我々はトランスのコスト削減のためにクロスフィーチャーアテンション(XFA)を提案し、効率的なモバイルCNNを組み合わせて新しい軽量CNN-ViTハイブリッドモデルXFormerを構築した。
論文 参考訳(メタデータ) (2022-07-15T03:27:13Z) - SepViT: Separable Vision Transformer [20.403430632658946]
ビジョントランスフォーマーは、しばしば高い性能を達成するために膨大な計算コストを頼りにしており、リソースに制約のあるデバイスにデプロイするには負担がかかる。
我々は、深度的に分離可能な畳み込みから教訓を導き、そのイデオロギーを模倣して、効率的なトランスフォーマーバックボーン、すなわちSepViTと略される分離可能なビジョントランスを設計する。
SepViTは、深度的に分離可能な自己アテンションを通じて、ウィンドウ内およびウィンドウ間のローカル・グローバル情報インタラクションの実行を支援する。
論文 参考訳(メタデータ) (2022-03-29T09:20:01Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z) - Focal Self-attention for Local-Global Interactions in Vision
Transformers [90.9169644436091]
局所的局所的相互作用と粗大な大域的相互作用の両方を包含する新しいメカニズムである焦点自己アテンションを提示する。
焦点自己アテンションを用いて、最先端の視覚変換器よりも優れた性能を実現する、Focal Transformerと呼ばれる新しい視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T17:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。