論文の概要: Vision Transformer Adapter for Dense Predictions
- arxiv url: http://arxiv.org/abs/2205.08534v2
- Date: Wed, 18 May 2022 01:27:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 10:32:19.725922
- Title: Vision Transformer Adapter for Dense Predictions
- Title(参考訳): 密集予測用視覚変圧器アダプタ
- Authors: Zhe Chen, Yuchen Duan, Wenhai Wang, Junjun He, Tong Lu, Jifeng Dai, Yu
Qiao
- Abstract要約: Vision Transformer (ViT) は画像の事前情報がないため、高密度な予測タスクでは性能が劣る。
本稿では、ViTの欠陥を修復し、視覚特化モデルに匹敵する性能を実現するビジョントランスフォーマーアダプタ(ViT-Adapter)を提案する。
我々は、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションを含む複数の下流タスクにおけるViT-Adapterの有効性を検証する。
- 参考スコア(独自算出の注目度): 57.590511173416445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work investigates a simple yet powerful adapter for Vision Transformer
(ViT). Unlike recent visual transformers that introduce vision-specific
inductive biases into their architectures, ViT achieves inferior performance on
dense prediction tasks due to lacking prior information of images. To solve
this issue, we propose a Vision Transformer Adapter (ViT-Adapter), which can
remedy the defects of ViT and achieve comparable performance to vision-specific
models by introducing inductive biases via an additional architecture.
Specifically, the backbone in our framework is a vanilla transformer that can
be pre-trained with multi-modal data. When fine-tuning on downstream tasks, a
modality-specific adapter is used to introduce the data and tasks' prior
information into the model, making it suitable for these tasks. We verify the
effectiveness of our ViT-Adapter on multiple downstream tasks, including object
detection, instance segmentation, and semantic segmentation. Notably, when
using HTC++, our ViT-Adapter-L yields 60.1 box AP and 52.1 mask AP on COCO
test-dev, surpassing Swin-L by 1.4 box AP and 1.0 mask AP. For semantic
segmentation, our ViT-Adapter-L establishes a new state-of-the-art of 60.5 mIoU
on ADE20K val, 0.6 points higher than SwinV2-G. We hope that the proposed
ViT-Adapter could serve as an alternative for vision-specific transformers and
facilitate future research. The code and models will be released at
https://github.com/czczup/ViT-Adapter.
- Abstract(参考訳): 本研究は視覚変換器(ViT)の簡易かつ強力なアダプタについて検討する。
視覚固有の帰納バイアスをアーキテクチャに導入する最近のビジュアルトランスフォーマーとは異なり、ViTは画像の事前情報がないため、高密度な予測タスクでは性能が劣る。
そこで本研究では,vitの欠陥を修正可能な視覚トランスフォーマアダプタ (vit-adapter) を提案する。
具体的には、私たちのフレームワークのバックボーンは、マルチモーダルデータで事前トレーニング可能なバニラ変換器です。
下流タスクを微調整する場合、データとタスクの事前情報をモデルに導入するためにモダリティ固有のアダプタが使用され、これらのタスクに適合する。
我々は、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションを含む複数の下流タスクにおけるViT-Adapterの有効性を検証する。
特にhtc++を使用する場合、vit-adapter-l は coco test-dev 上で 60.1 box ap と 52.1 mask ap となり、swin-l を 1.4 box ap と 1.0 mask ap で上回る。
セマンティックセグメンテーションのために、私たちのViT-Adapter-LはADE20K val上で60.5 mIoUの新たな最先端を確立します。
提案したViT-Adapterが、視覚特異的トランスフォーマーの代替となり、将来の研究を促進することを期待している。
コードとモデルはhttps://github.com/czczup/ViT-Adapter.comでリリースされる。
関連論文リスト
- ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions [4.554319452683839]
Vision Transformer (ViT) はコンピュータビジョンにおいて大きな成功を収めているが、密集した予測タスクではうまく機能しない。
コンボリューショナル・マルチスケール機能を有するVTバックボーンであるViT-CoMerについて述べる。
階層的特徴をまたいだマルチスケールの融合を行う,シンプルで効率的なCNN-Transformer双方向核融合モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:59:41Z) - Mini but Mighty: Finetuning ViTs with Mini Adapters [7.175668563148084]
アダプタの寸法が小さい場合、アダプタは性能が悪くなります。
この問題に対処するトレーニングフレームワークMiMiを提案する。
本手法は,精度と訓練されたパラメータの最良のトレードオフを見つける上で,既存の手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-07T10:41:27Z) - Selective Feature Adapter for Dense Vision Transformers [30.409313135985528]
選択的機能アダプタ(SFA)は、様々な密集タスクにわたる完全な微調整モデルよりも同等または優れたパフォーマンスを達成する。
SFAは外部アダプタと内部アダプタで構成され、トランスフォーマーモデル上で順次操作される。
実験により、双対アダプタモジュールであるSFAは、高密度視覚タスクにおける最良のトレードオフを達成するために不可欠であることが示されている。
論文 参考訳(メタデータ) (2023-10-03T07:17:58Z) - $E(2)$-Equivariant Vision Transformer [11.94180035256023]
Vision Transformer (ViT) はコンピュータビジョンにおいて優れた性能を発揮している。
ViTにおける位置符号化は、データの本質的な等価性を学ぶのを著しく困難にする。
我々は、新しい効果的な位置符号化演算子を用いて、GE-ViT(Group Equivariant Vision Transformer)を設計する。
論文 参考訳(メタデータ) (2023-06-11T16:48:03Z) - AdaptFormer: Adapting Vision Transformers for Scalable Visual
Recognition [39.443380221227166]
本稿では,Transformerの効果的な適応手法,すなわちAdaptFormerを提案する。
トレーニング済みのViTを、さまざまな画像やビデオタスクに効率的に適応させることができる。
オリジナルのトレーニング済みパラメータを更新することなく、ViTの転送可能性を向上させることができる。
論文 参考訳(メタデータ) (2022-05-26T17:56:15Z) - ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation [76.35955924137986]
人間のポーズ推定データセットを微調整した結果,MAEプリトレーニング付きプレーン・ビジョン・トランスフォーマが優れた性能が得られることを示す。
10億のパラメータを持つ ViTAE-G バックボーンをベースとした我々の最大の ViTPose モデルは MS COCO test-dev セット上で最高の 80.9 mAP を得る。
論文 参考訳(メタデータ) (2022-04-26T17:55:04Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - VL-Adapter: Parameter-Efficient Transfer Learning for
Vision-and-Language Tasks [71.40656211497162]
近年、大規模なテキストコーパスで事前訓練された微調整言語モデルにより、視覚と言語(V&L)タスクが大幅に改善されている。
本稿では,VL-BARTやVL-T5などのV&Lモデルに対して,アダプタに基づくパラメータ効率変換学習手法を提案する。
提案手法は, モデル全体の微調整性能に適合することを示した。
論文 参考訳(メタデータ) (2021-12-13T17:35:26Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction
without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。
画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。
PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文 参考訳(メタデータ) (2021-02-24T08:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。