論文の概要: AdaptFormer: Adapting Vision Transformers for Scalable Visual
Recognition
- arxiv url: http://arxiv.org/abs/2205.13535v1
- Date: Thu, 26 May 2022 17:56:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 14:28:57.401125
- Title: AdaptFormer: Adapting Vision Transformers for Scalable Visual
Recognition
- Title(参考訳): AdaptFormer: スケーラブルな視覚認識のための視覚変換器の適応
- Authors: Shoufa Chen, Chongjian Ge, Zhan Tong, Jiangliu Wang, Yibing Song, Jue
Wang, Ping Luo
- Abstract要約: 本稿では,Transformerの効果的な適応手法,すなわちAdaptFormerを提案する。
トレーニング済みのViTを、さまざまな画像やビデオタスクに効率的に適応させることができる。
オリジナルのトレーニング済みパラメータを更新することなく、ViTの転送可能性を向上させることができる。
- 参考スコア(独自算出の注目度): 39.443380221227166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the pre-trained Vision Transformers (ViTs) achieved great success in
computer vision, adapting a ViT to various image and video tasks is challenging
because of its heavy computation and storage burdens, where each model needs to
be independently and comprehensively fine-tuned to different tasks, limiting
its transferability in different domains. To address this challenge, we propose
an effective adaptation approach for Transformer, namely AdaptFormer, which can
adapt the pre-trained ViTs into many different image and video tasks
efficiently. It possesses several benefits more appealing than prior arts.
Firstly, AdaptFormer introduces lightweight modules that only add less than 2%
extra parameters to a ViT, while it is able to increase the ViT's
transferability without updating its original pre-trained parameters,
significantly outperforming the existing 100% fully fine-tuned models on action
recognition benchmarks. Secondly, it can be plug-and-play in different
Transformers and scalable to many visual tasks. Thirdly, extensive experiments
on five image and video datasets show that AdaptFormer largely improves ViTs in
the target domains. For example, when updating just 1.5% extra parameters, it
achieves about 10% and 19% relative improvement compared to the fully
fine-tuned models on Something-Something~v2 and HMDB51, respectively. Project
page: http://www.shoufachen.com/adaptformer-page.
- Abstract(参考訳): 事前訓練されたビジョントランスフォーマー(ViT)はコンピュータビジョンにおいて大きな成功を収めたが、様々な画像やビデオタスクにViTを適応させることは、各モデルが異なるタスクに独立して包括的に微調整する必要があるという重い計算と記憶負荷のために困難である。
この課題に対処するために,プリトレーニングされたvitを様々な画像や映像タスクに効率的に適応させることができるトランスフォーマー(adaptformer)の効果的な適応手法を提案する。
以前の芸術よりも魅力的な利益がいくつかある。
ひとつは、AdaptFormerが導入する軽量モジュールで、ViTに2%未満のパラメータを追加するだけで、オリジナルのトレーニング済みパラメータを更新することなく、ViTの転送可能性を向上させることができる。
第二に、異なるトランスフォーマーでプラグイン&プレイでき、多くのビジュアルタスクにスケーラブルである。
第3に、5つの画像とビデオデータセットに関する広範な実験は、adaptformerがターゲットドメインのvitsを大幅に改善していることを示している。
例えば、わずか1.5%の追加パラメータを更新すると、Something~v2 と HMDB51 で完全に調整されたモデルと比較して約10%と19%の改善が達成される。
プロジェクトページ: http://www.shoufachen.com/adaptformer-page
関連論文リスト
- Reversible Vision Transformers [74.3500977090597]
Reversible Vision Transformersは、視覚認識のためのメモリ効率の良いアーキテクチャである。
我々は2つの人気モデル、すなわちビジョン変換器とマルチスケールビジョン変換器を可逆的変種に適用する。
より深いモデルでは、アクティベーションを再計算する際の計算負荷が過大評価されている。
論文 参考訳(メタデータ) (2023-02-09T18:59:54Z) - Super Vision Transformer [131.4777773281238]
ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。
我々のSuperViTは、効率的な視覚変換器に関する既存の研究よりも優れています。
論文 参考訳(メタデータ) (2022-05-23T15:42:12Z) - Vision Transformer Adapter for Dense Predictions [57.590511173416445]
Vision Transformer (ViT) は画像の事前情報がないため、高密度な予測タスクでは性能が劣る。
本稿では、ViTの欠陥を修復し、視覚特化モデルに匹敵する性能を実現するビジョントランスフォーマーアダプタ(ViT-Adapter)を提案する。
我々は、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションを含む複数の下流タスクにおけるViT-Adapterの有効性を検証する。
論文 参考訳(メタデータ) (2022-05-17T17:59:11Z) - MiniViT: Compressing Vision Transformers with Weight Multiplexing [88.54212027516755]
ビジョントランスフォーマー(ViT)モデルは近年、高いモデル能力のためにコンピュータビジョンに多くの注目を集めている。
MiniViTは新しい圧縮フレームワークで、同じ性能を維持しながらビジョントランスフォーマーのパラメータ削減を実現する。
論文 参考訳(メタデータ) (2022-04-14T17:59:05Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - TerViT: An Efficient Ternary Vision Transformer [21.348788407233265]
視覚変換器(ViT)は、様々な視覚的タスクにおいて大きな可能性を秘めているが、リソース制約されたデバイスに展開する際には、高価な計算とメモリコストの問題に悩まされている。
実測値と三次パラメータ間の大きな損失表面ギャップに挑戦する3次視覚変換器(TerViT)を導入する。
論文 参考訳(メタデータ) (2022-01-20T08:29:19Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。