論文の概要: MPViT: Multi-Path Vision Transformer for Dense Prediction
- arxiv url: http://arxiv.org/abs/2112.11010v1
- Date: Tue, 21 Dec 2021 06:34:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 14:13:09.969641
- Title: MPViT: Multi-Path Vision Transformer for Dense Prediction
- Title(参考訳): MPViT:Dense Predictionのためのマルチパスビジョントランス
- Authors: Youngwan Lee, Jonghee Kim, Jeff Willette, Sung Ju Hwang
- Abstract要約: Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。
OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 43.89623453679854
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Dense computer vision tasks such as object detection and segmentation require
effective multi-scale feature representation for detecting or classifying
objects or regions with varying sizes. While Convolutional Neural Networks
(CNNs) have been the dominant architectures for such tasks, recently introduced
Vision Transformers (ViTs) aim to replace them as a backbone. Similar to CNNs,
ViTs build a simple multi-stage structure (i.e., fine-to-coarse) for
multi-scale representation with single-scale patches. In this work, with a
different perspective from existing Transformers, we explore multi-scale patch
embedding and multi-path structure, constructing the Multi-Path Vision
Transformer (MPViT). MPViT embeds features of the same size~(i.e., sequence
length) with patches of different scales simultaneously by using overlapping
convolutional patch embedding. Tokens of different scales are then
independently fed into the Transformer encoders via multiple paths and the
resulting features are aggregated, enabling both fine and coarse feature
representations at the same feature level. Thanks to the diverse, multi-scale
feature representations, our MPViTs scaling from tiny~(5M) to base~(73M)
consistently achieve superior performance over state-of-the-art Vision
Transformers on ImageNet classification, object detection, instance
segmentation, and semantic segmentation. These extensive results demonstrate
that MPViT can serve as a versatile backbone network for various vision tasks.
Code will be made publicly available at \url{https://git.io/MPViT}.
- Abstract(参考訳): オブジェクト検出やセグメンテーションのような密集したコンピュータビジョンタスクは、大きさの異なるオブジェクトや領域の検出や分類に有効なマルチスケールの特徴表現を必要とする。
畳み込みニューラルネットワーク(CNN)はそのようなタスクの主要なアーキテクチャであるが、最近導入されたビジョントランスフォーマー(ViT)は、それらをバックボーンとして置き換えることを目指している。
CNNと同様、ViTsは単一スケールパッチによるマルチスケール表現のための単純なマルチステージ構造(ファイン・ツー・コアス)を構築している。
本研究では,既存のTransformerと異なる視点で,MPViT(Multi-Path Vision Transformer)を構成するマルチスケールパッチ埋め込みとマルチパス構造について検討する。
MPViTは、重複する畳み込みパッチの埋め込みを用いて、異なるスケールのパッチを同時に同じサイズ〜(シーケンス長)の機能を埋め込む。
異なるスケールのトークンは、複数のパスを介してトランスフォーマーエンコーダに独立して供給され、その結果のフィーチャは集約され、同じ機能レベルで細かな特徴表現と粗い特徴表現の両方を可能にする。
多様なマルチスケールの機能表現のおかげで、MPViTは、ImageNet分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションにおける最先端のVision Transformerよりも一貫して優れたパフォーマンスを実現しています。
これらの広範な結果は、mpvitが様々な視覚タスクのバックボーンネットワークとして機能できることを示しています。
コードは \url{https://git.io/MPViT} で公開される。
関連論文リスト
- SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers [0.0]
マルチスケール機能を統合することでこの問題に対処する新しいフレームワークであるSAG-ViT(Scale-Aware Graph Attention Vision Transformer)を紹介した。
EfficientNetをバックボーンとして使用し、マルチスケールの特徴マップを抽出し、セマンティック情報を保存するためにパッチに分割する。
SAG-ViTは、ベンチマークデータセットに基づいて評価され、画像分類性能を向上させる効果を示す。
論文 参考訳(メタデータ) (2024-11-14T13:15:27Z) - M2Former: Multi-Scale Patch Selection for Fine-Grained Visual
Recognition [4.621578854541836]
既存のViTモデルにおけるマルチスケール機能を改善するために,マルチスケールパッチ選択(MSPS)を提案する。
具体的には、MSPSは視覚変換器(MS-ViT)の異なる段階で異なるスケールの正解パッチを選択する。
さらに、クラストークン転送(CTT)とマルチスケールクロスアテンション(MSCA)を導入し、選択したマルチスケールパッチ間のクロススケールインタラクションをモデル化し、モデル決定でそれらを完全に反映する。
論文 参考訳(メタデータ) (2023-08-04T06:41:35Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - SimViT: Exploring a Simple Vision Transformer with sliding windows [3.3107339588116123]
視覚変換器に空間構造と局所情報を組み込む視覚変換器SimViTを導入する。
SimViTは、密集予測タスクのために異なるレイヤからマルチスケール階層的特徴を抽出する。
私たちのSimViT-Microは、ImageNet-1kデータセットで71.1%のトップ-1の精度を達成するのに、3.3Mパラメータしか必要としない。
論文 参考訳(メタデータ) (2021-12-24T15:18:20Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。