論文の概要: DaViT: Dual Attention Vision Transformers
- arxiv url: http://arxiv.org/abs/2204.03645v1
- Date: Thu, 7 Apr 2022 17:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 15:00:18.640265
- Title: DaViT: Dual Attention Vision Transformers
- Title(参考訳): DaViT:デュアルアテンション・ビジョン・トランスフォーマー
- Authors: Mingyu Ding, Bin Xiao, Noel Codella, Ping Luo, Jingdong Wang, Lu Yuan
- Abstract要約: デュアルアテンションビジョン変換器(DaViT)について紹介する。
DaViTは、計算効率を維持しながらグローバルなコンテキストをキャプチャできるビジョントランスフォーマーアーキテクチャである。
我々は,DaViTが4つのタスクにおける最先端の性能を効率よく計算できることを示す。
- 参考スコア(独自算出の注目度): 94.62855697081079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce Dual Attention Vision Transformers (DaViT), a
simple yet effective vision transformer architecture that is able to capture
global context while maintaining computational efficiency. We propose
approaching the problem from an orthogonal angle: exploiting self-attention
mechanisms with both "spatial tokens" and "channel tokens". With spatial
tokens, the spatial dimension defines the token scope, and the channel
dimension defines the token feature dimension. With channel tokens, we have the
inverse: the channel dimension defines the token scope, and the spatial
dimension defines the token feature dimension. We further group tokens along
the sequence direction for both spatial and channel tokens to maintain the
linear complexity of the entire model. We show that these two self-attentions
complement each other: (i) since each channel token contains an abstract
representation of the entire image, the channel attention naturally captures
global interactions and representations by taking all spatial positions into
account when computing attention scores between channels; (ii) the spatial
attention refines the local representations by performing fine-grained
interactions across spatial locations, which in turn helps the global
information modeling in channel attention. Extensive experiments show our DaViT
achieves state-of-the-art performance on four different tasks with efficient
computations. Without extra data, DaViT-Tiny, DaViT-Small, and DaViT-Base
achieve 82.8%, 84.2%, and 84.6% top-1 accuracy on ImageNet-1K with 28.3M,
49.7M, and 87.9M parameters, respectively. When we further scale up DaViT with
1.5B weakly supervised image and text pairs, DaViT-Gaint reaches 90.4% top-1
accuracy on ImageNet-1K. Code is available at https://github.com/dingmyu/davit.
- Abstract(参考訳): 本稿では,計算効率を保ちながらグローバルなコンテキストを捉えることができる,シンプルで効果的な視覚変換器アーキテクチャであるDual Attention Vision Transformers (DaViT)を紹介する。
本稿では「空間トークン」と「チャネルトークン」の両方で自己認識機構を利用する直交角度からのアプローチを提案する。
空間トークンでは、空間次元はトークンの範囲を定義し、チャネル次元はトークンの特徴次元を定義する。
チャネル次元はトークンの範囲を定義し、空間次元はトークンの特徴次元を定義します。
我々はさらに,モデル全体の線形複雑性を維持するために,空間トークンとチャネルトークンの両方のシーケンス方向に沿ってトークンをグループ化する。
これら2つの自己意識が相互に補完することを示す。
(i)各チャンネルトークンは、画像全体の抽象表現を含むので、チャネル間における注意スコアを計算する際に、すべての空間位置を考慮して、自然にグローバルインタラクション及び表現をキャプチャする。
(ii)空間的注意は、空間的位置間のきめ細かい相互作用を行うことで局所的表現を洗練し、チャネル的注意におけるグローバル情報モデリングを支援する。
大規模な実験により、DaViTは4つの異なるタスクにおける最先端のパフォーマンスを効率的に計算できることを示した。
DaViT-Tiny、DaViT-Small、DaViT-Baseは、それぞれ28.3M、49.7M、87.9MのImageNet-1Kで82.8%、84.2%、84.6%の精度を達成した。
1.5Bの弱教師付き画像とテキストペアでDaViTをさらにスケールアップすると、DaViT-GaintはImageNet-1Kで90.4%のトップ1精度に達する。
コードはhttps://github.com/dingmyu/davit.comから入手できる。
関連論文リスト
- Fusion of regional and sparse attention in Vision Transformers [4.782322901897837]
現代の視覚変換器は、ウィンドウやグリッド領域内で計算された注意を通して、ピクセル間の視覚的にインスパイアされた局所的な相互作用を利用する。
本稿では,地域情報とグローバル情報の両方を動的に統合した,地域的・疎外的な注意の混合であるAtrous Attentionを提案する。
我々のコンパクトモデルは、2850万パラメータ未満のImageNet-1Kで約84%の精度を達成し、最先端のMaxViTを0.42%上回った。
論文 参考訳(メタデータ) (2024-06-13T06:48:25Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z) - DualToken-ViT: Position-aware Efficient Vision Transformer with Dual
Token Fusion [25.092756016673235]
自己注意に基づく視覚変換器(ViT)はコンピュータビジョンにおいて高い競争力を持つアーキテクチャとして登場した。
本稿では,DualToken-ViTと呼ばれる軽量かつ効率的な視覚変換器モデルを提案する。
論文 参考訳(メタデータ) (2023-09-21T18:46:32Z) - Efficient Multi-Scale Attention Module with Cross-Spatial Learning [4.046170185945849]
効率的なマルチスケールアテンション(EMA)モジュールを提案する。
チャネルごとの情報保持と計算オーバーヘッドの低減に重点を置いている。
我々は画像分類と物体検出タスクについて広範囲にわたるアブレーション研究と実験を行った。
論文 参考訳(メタデータ) (2023-05-23T00:35:47Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - PSViT: Better Vision Transformer via Token Pooling and Attention Sharing [114.8051035856023]
トークンプーリングとアテンション共有を併用したPSViTを提案する。
実験の結果,提案手法は画像ネット分類の精度を最大6.6%向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-08-07T11:30:54Z) - Vision Permutator: A Permutable MLP-Like Architecture for Visual
Recognition [185.80889967154963]
視覚認識のための概念的にシンプルでデータ効率の良いアーキテクチャであるVision Permutatorを提案する。
2次元特徴表現によってもたらされる位置情報の重要性を実現することで、Vision Permutatorは、高さと幅の寸法に沿って特徴表現を線形射影でエンコードする。
私たちのVision Permutatorは、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマーとの激しい競合であることを示す。
論文 参考訳(メタデータ) (2021-06-23T13:05:23Z) - Dual Attention GANs for Semantic Image Synthesis [101.36015877815537]
本稿では,写真リアリスティック・セマンティック・一貫性のあるイメージを合成するための新しいデュアルアテンションGAN(DAGAN)を提案する。
また,2つの新しいモジュール,すなわち位置対応空間アテンションモジュール(SAM)と規模対応チャネルアテンションモジュール(CAM)を提案する。
DAGANは、より少ないモデルパラメータを使用しながら、最先端のメソッドよりも驚くほど優れた結果が得られる。
論文 参考訳(メタデータ) (2020-08-29T17:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。