論文の概要: MaxViT: Multi-Axis Vision Transformer
- arxiv url: http://arxiv.org/abs/2204.01697v1
- Date: Mon, 4 Apr 2022 17:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 12:35:46.705052
- Title: MaxViT: Multi-Axis Vision Transformer
- Title(参考訳): MaxViT:マルチ軸ビジョントランス
- Authors: Zhengzhong Tu, Hossein Talebi, Han Zhang, Feng Yang, Peyman Milanfar,
Alan Bovik, Yinxiao Li
- Abstract要約: 多軸アテンションと呼ばれる効率的でスケーラブルなアテンションモデルを導入する。
提案するアテンションモデルと畳み込みを効果的に組み合わせることで,新しいアーキテクチャ要素を提案する。
視覚タスクの幅広い範囲におけるモデルの有効性を実証する。
- 参考スコア(独自算出の注目度): 19.192826213493838
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformers have recently gained significant attention in the computer
vision community. However, the lack of scalability of self-attention mechanisms
with respect to image size has limited their wide adoption in state-of-the-art
vision backbones. In this paper we introduce an efficient and scalable
attention model we call multi-axis attention, which consists of two aspects:
blocked local and dilated global attention. These design choices allow
global-local spatial interactions on arbitrary input resolutions with only
linear complexity. We also present a new architectural element by effectively
blending our proposed attention model with convolutions, and accordingly
propose a simple hierarchical vision backbone, dubbed MaxViT, by simply
repeating the basic building block over multiple stages. Notably, MaxViT is
able to "see" globally throughout the entire network, even in earlier,
high-resolution stages. We demonstrate the effectiveness of our model on a
broad spectrum of vision tasks. On image classification, MaxViT achieves
state-of-the-art performance under various settings: without extra data, MaxViT
attains 86.5\% ImageNet-1K top-1 accuracy; with ImageNet-21K pre-training, our
model achieves 88.7\% top-1 accuracy. For downstream tasks, MaxViT as a
backbone delivers favorable performance on object detection as well as visual
aesthetic assessment. We also show that our proposed model expresses strong
generative modeling capability on ImageNet, demonstrating the superior
potential of MaxViT blocks as a universal vision module. We will make the code
and models publicly available.
- Abstract(参考訳): トランスフォーマーは最近、コンピュータビジョンコミュニティで大きな注目を集めている。
しかし、画像サイズに関する自己着脱機構のスケーラビリティの欠如は、最先端のビジョンバックボーンにおける広範な採用を制限している。
本稿では,マルチ軸アテンション(multi-axis attention)という,局所的および拡張的アテンションという2つの側面からなる,効率的かつスケーラブルなアテンションモデルを提案する。
これらの設計選択は、線形複雑度のみを持つ任意の入力解像度に対するグローバルな空間的相互作用を可能にする。
また,提案したアテンションモデルと畳み込みを効果的に組み合わせた新しいアーキテクチャ要素を提案するとともに,複数のステージにまたがる基本的なビルディングブロックを繰り返すことで,MaxViTと呼ばれる単純な階層型視覚バックボーンを提案する。
特にMaxViTは、初期の高解像度の段階でも、ネットワーク全体を通して"見る"ことができる。
我々は,幅広い視覚課題におけるモデルの有効性を実証する。
画像分類では、MaxViTは、余分なデータなしで86.5倍のImageNet-1Kトップ-1精度を実現し、ImageNet-21K事前トレーニングでは、88.7倍のTop-1精度を達成する。
下流タスクでは、MaxViTをバックボーンとして、オブジェクト検出と視覚的美的評価に好適なパフォーマンスを提供する。
また,提案モデルでは,イメージネット上での強力な生成モデリング能力を示し,ユニバーサルビジョンモジュールとしてのMaxViTブロックの優れた可能性を示す。
コードとモデルを公開します。
関連論文リスト
- CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - MaxSR: Image Super-Resolution Using Improved MaxViT [34.53995225219387]
我々は、MaxViTのハイブリッドビジョン変換器(MaxSR)をベースとした、単一画像超解像モデルを提案する。
従来の単一画像超解像 (MaxSR) と軽量単一画像超解像 (MaxSR-light) のモデルにより, 新たな最先端性能の確立が期待できる。
論文 参考訳(メタデータ) (2023-07-14T09:26:47Z) - MULLER: Multilayer Laplacian Resizer for Vision [16.67232499096539]
MULLERレサイザと呼ばれる,少数のトレーニング可能なパラメータしか持たない,非常に軽量な多層ラプラシアンリサイザを提案する。
MULLERは、様々な訓練パイプラインに簡単に接続できることを示し、基礎となる視覚タスクの性能を、ほとんど、あるいは、余分なコストで効果的に向上させる。
論文 参考訳(メタデータ) (2023-04-06T04:39:21Z) - You Only Train Once: Multi-Identity Free-Viewpoint Neural Human
Rendering from Monocular Videos [10.795522875068073]
You Only Train Once (YOTO) は動的なヒューマンジェネレーションフレームワークであり、異なる動きを持つ異なる人間のアイデンティティを自由視点でレンダリングする。
本稿では,多元性自由視点レンダリングのためのフレームワークの能力を拡張するために,学習可能な識別符号のセットを提案する。
YOTOは、すべての評価指標で最先端のパフォーマンスを示しながら、トレーニングや推論効率、レンダリング品質に大きなメリットを示している。
論文 参考訳(メタデータ) (2023-03-10T10:23:17Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Florence: A New Foundation Model for Computer Vision [97.26333007250142]
我々は、粗い(シーン)から細かい(オブジェクト)への表現を拡大するために、新しいコンピュータビジョン基盤モデルであるFlorenceを導入する。
Webスケールの画像テキストデータから普遍的な視覚言語表現を組み込むことで、フローレンスモデルは様々なコンピュータビジョンタスクに容易に適応できる。
Florenceは44の代表的なベンチマークの過半数において、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2021-11-22T18:59:55Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。