論文の概要: A Simple Single-Scale Vision Transformer for Object Localization and
Instance Segmentation
- arxiv url: http://arxiv.org/abs/2112.09747v1
- Date: Fri, 17 Dec 2021 20:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 16:18:11.159365
- Title: A Simple Single-Scale Vision Transformer for Object Localization and
Instance Segmentation
- Title(参考訳): オブジェクトローカライゼーションとインスタンスセグメンテーションのための簡易シングルスケール視覚変換器
- Authors: Wuyang Chen, Xianzhi Du, Fan Yang, Lucas Beyer, Xiaohua Zhai, Tsung-Yi
Lin, Huizhong Chen, Jing Li, Xiaodan Song, Zhangyang Wang, Denny Zhou
- Abstract要約: We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。
UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 79.265315267391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a simple vision transformer design as a strong baseline
for object localization and instance segmentation tasks. Transformers recently
demonstrate competitive performance in image classification tasks. To adopt ViT
to object detection and dense prediction tasks, many works inherit the
multistage design from convolutional networks and highly customized ViT
architectures. Behind this design, the goal is to pursue a better trade-off
between computational cost and effective aggregation of multiscale global
contexts. However, existing works adopt the multistage architectural design as
a black-box solution without a clear understanding of its true benefits. In
this paper, we comprehensively study three architecture design choices on ViT
-- spatial reduction, doubled channels, and multiscale features -- and
demonstrate that a vanilla ViT architecture can fulfill this goal without
handcrafting multiscale features, maintaining the original ViT design
philosophy. We further complete a scaling rule to optimize our model's
trade-off on accuracy and computation cost / model size. By leveraging a
constant feature resolution and hidden size throughout the encoder blocks, we
propose a simple and compact ViT architecture called Universal Vision
Transformer (UViT) that achieves strong performance on COCO object detection
and instance segmentation tasks.
- Abstract(参考訳): この研究は、オブジェクトローカライゼーションとインスタンスセグメンテーションタスクのための強力なベースラインとして、単純な視覚変換器の設計を示す。
トランスフォーマーは近年,画像分類タスクにおける競合性能を実証している。
オブジェクト検出と密集予測タスクにViTを採用するために、多くの研究が畳み込みネットワークと高度にカスタマイズされたViTアーキテクチャからマルチステージ設計を継承した。
この設計の背後にある目標は、計算コストとマルチスケールグローバルコンテキストの効果的な集約とのトレードオフを改善することである。
しかし、既存の作品では、その真のメリットを明確に理解せずに、ブラックボックスソリューションとして多段階アーキテクチャ設計を採用している。
本稿では,vitにおける3つのアーキテクチャ設計選択 - 空間的縮小,二重化チャネル,マルチスケール機能 -- を包括的に検討し,vailla vitアーキテクチャがマルチスケール機能を手作りすることなく,vitの設計哲学を維持できることを示す。
さらに,モデルの精度と計算コスト/モデルサイズに関するトレードオフを最適化するためのスケーリングルールも完成しました。
エンコーダブロック全体にわたって一定の特徴解像度と隠れサイズを活用することで,COCOオブジェクト検出やインスタンス分割タスクにおいて高い性能を実現する,Universal Vision Transformer (UViT) と呼ばれるシンプルでコンパクトなViTアーキテクチャを提案する。
関連論文リスト
- GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - NiNformer: A Network in Network Transformer with Token Mixing as a Gating Function Generator [1.3812010983144802]
このアテンション機構はコンピュータビジョンでビジョントランスフォーマー ViT として使用された。
コストがかかり、効率的な最適化のためにかなりのサイズのデータセットを必要とするという欠点がある。
本稿では,新しい計算ブロックを標準ViTブロックの代替として導入し,計算負荷を削減する。
論文 参考訳(メタデータ) (2024-03-04T19:08:20Z) - Minimalist and High-Performance Semantic Segmentation with Plain Vision
Transformers [10.72362704573323]
トランス層に加えて,3$Times$3の畳み込みのみで構成されるモデルであるPlainSegを導入する。
また,階層的特徴の活用を可能にするPlainSeg-Hierを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:01:40Z) - Transformer Scale Gate for Semantic Segmentation [53.27673119360868]
Transformer Scale Gate (TSG) は、視覚変換器の自己および横断的な注意をスケール選択に活用する。
Pascal ContextとADE20Kデータセットに関する我々の実験は、我々の特徴選択戦略が一貫した利益を達成することを示す。
論文 参考訳(メタデータ) (2022-05-14T13:11:39Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - MPViT: Multi-Path Vision Transformer for Dense Prediction [43.89623453679854]
Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。
OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-21T06:34:50Z) - UniNet: Unified Architecture Search with Convolution, Transformer, and
MLP [62.401161377258234]
本稿では,コンボリューション,トランスフォーマー,COCOの最適組み合わせを共同で探索し,一連の全演算型ネットワークアーキテクチャを構築することを提案する。
広範に使われているストリップド・コンボリューション (strided convolution) あるいはプール・ベース・ダウンサンプリング・モジュールは,演算子を結合してネットワークを形成する場合,性能上のボトルネックとなる。
変換器と演算子によって捕捉されるグローバルなコンテキストによりよく対処するために,2つの新しいコンテキスト対応ダウンサンプリングモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-08T11:09:40Z) - Vision Transformer Architecture Search [64.73920718915282]
現在の視覚変換器(ViT)は、自然言語処理(NLP)タスクから単純に継承される。
ハードウェア予算に類似した最適アーキテクチャを探索するために,ViTASと呼ばれるアーキテクチャ探索手法を提案する。
検索したアーキテクチャは、ImageNetで74.7%の精度で、現在のベースラインのViTアーキテクチャよりも2.5%高い。
論文 参考訳(メタデータ) (2021-06-25T15:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。