論文の概要: DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition
- arxiv url: http://arxiv.org/abs/2302.01791v1
- Date: Fri, 3 Feb 2023 14:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 16:03:11.189152
- Title: DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition
- Title(参考訳): DilateFormer: 視覚認識のためのマルチスケールDilated Transformer
- Authors: Jiayu Jiao, Yu-Ming Tang, Kun-Yu Lin, Yipeng Gao, Jinhua Ma, Yaowei
Wang and Wei-Shi Zheng
- Abstract要約: 我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
- 参考スコア(独自算出の注目度): 62.95223898214866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a de facto solution, the vanilla Vision Transformers (ViTs) are encouraged
to model long-range dependencies between arbitrary image patches while the
global attended receptive field leads to quadratic computational cost. Another
branch of Vision Transformers exploits local attention inspired by CNNs, which
only models the interactions between patches in small neighborhoods. Although
such a solution reduces the computational cost, it naturally suffers from small
attended receptive fields, which may limit the performance. In this work, we
explore effective Vision Transformers to pursue a preferable trade-off between
the computational complexity and size of the attended receptive field. By
analyzing the patch interaction of global attention in ViTs, we observe two key
properties in the shallow layers, namely locality and sparsity, indicating the
redundancy of global dependency modeling in shallow layers of ViTs.
Accordingly, we propose Multi-Scale Dilated Attention (MSDA) to model local and
sparse patch interaction within the sliding window. With a pyramid
architecture, we construct a Multi-Scale Dilated Transformer (DilateFormer) by
stacking MSDA blocks at low-level stages and global multi-head self-attention
blocks at high-level stages. Our experiment results show that our DilateFormer
achieves state-of-the-art performance on various vision tasks. On ImageNet-1K
classification task, DilateFormer achieves comparable performance with 70%
fewer FLOPs compared with existing state-of-the-art models. Our
DilateFormer-Base achieves 85.6% top-1 accuracy on ImageNet-1K classification
task, 53.5% box mAP/46.1% mask mAP on COCO object detection/instance
segmentation task and 51.1% MS mIoU on ADE20K semantic segmentation task.
- Abstract(参考訳): 事実上の解決策として、バニラビジョン変換器(ViT)は任意の画像パッチ間の長距離依存関係をモデル化し、グローバルな受容場は二次計算コストをもたらす。
ビジョントランスフォーマーの別の部門は、小さな地区のパッチ間の相互作用をモデル化するCNNにインスパイアされた局所的な注意を生かしている。
このような解は計算コストを下げるが、自然に小さな受容場に悩まされ、性能が制限される可能性がある。
そこで本研究では,実効的な視覚トランスフォーマーを探索し,受動場の計算複雑性と大きさのトレードオフを追求する。
ViTsにおけるグローバルアテンションのパッチ相互作用を解析することにより、VTsの浅層におけるグローバル依存モデリングの冗長性を示す浅層における2つの重要な特性、すなわち局所性と疎性を観察できる。
そこで我々は,スライディングウィンドウ内の局所的およびスパースなパッチ相互作用をモデル化するためのマルチスケール拡張注意(MSDA)を提案する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
imagenet-1k分類タスクでは、dilateformerは従来の最先端モデルに比べて70%のフロップで同等のパフォーマンスを達成している。
我々のDilateFormer-Baseは、ImageNet-1K分類タスクで85.6%、COCOオブジェクト検出/インスタンス分割タスクで53.5%のボックスmAP/46.1%、ADE20Kセマンティックセマンティクスタスクで51.1%のMSmIoUを達成している。
関連論文リスト
- MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - SimViT: Exploring a Simple Vision Transformer with sliding windows [3.3107339588116123]
視覚変換器に空間構造と局所情報を組み込む視覚変換器SimViTを導入する。
SimViTは、密集予測タスクのために異なるレイヤからマルチスケール階層的特徴を抽出する。
私たちのSimViT-Microは、ImageNet-1kデータセットで71.1%のトップ-1の精度を達成するのに、3.3Mパラメータしか必要としない。
論文 参考訳(メタデータ) (2021-12-24T15:18:20Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。