論文の概要: Masked Image Residual Learning for Scaling Deeper Vision Transformers
- arxiv url: http://arxiv.org/abs/2309.14136v2
- Date: Sun, 8 Oct 2023 05:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 03:20:49.738987
- Title: Masked Image Residual Learning for Scaling Deeper Vision Transformers
- Title(参考訳): 深部視覚トランスフォーマー拡大のためのマスク画像残差学習
- Authors: Guoxi Huang, Hongtao Fu, Adrian G. Bors
- Abstract要約: 我々は,より深いViTの学習を容易にするために,Masked Image Residual Learning (MIRL)と呼ばれる自己教師型学習フレームワークを導入する。
MIRLは劣化問題を著しく軽減し、ViTを深さに沿ってスケーリングすることがパフォーマンス向上の有望な方向となる。
事前トレーニング時間が少ないため、MIRLは他のアプローチと比較して競争性能が向上する。
- 参考スコア(独自算出の注目度): 37.313915004909184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deeper Vision Transformers (ViTs) are more challenging to train. We expose a
degradation problem in deeper layers of ViT when using masked image modeling
(MIM) for pre-training. To ease the training of deeper ViTs, we introduce a
self-supervised learning framework called Masked Image Residual Learning
(MIRL), which significantly alleviates the degradation problem, making scaling
ViT along depth a promising direction for performance upgrade. We reformulate
the pre-training objective for deeper layers of ViT as learning to recover the
residual of the masked image. We provide extensive empirical evidence showing
that deeper ViTs can be effectively optimized using MIRL and easily gain
accuracy from increased depth. With the same level of computational complexity
as ViT-Base and ViT-Large, we instantiate 4.5$\times$ and 2$\times$ deeper
ViTs, dubbed ViT-S-54 and ViT-B-48. The deeper ViT-S-54, costing 3$\times$ less
than ViT-Large, achieves performance on par with ViT-Large. ViT-B-48 achieves
86.2% top-1 accuracy on ImageNet. On one hand, deeper ViTs pre-trained with
MIRL exhibit excellent generalization capabilities on downstream tasks, such as
object detection and semantic segmentation. On the other hand, MIRL
demonstrates high pre-training efficiency. With less pre-training time, MIRL
yields competitive performance compared to other approaches.
- Abstract(参考訳): より深度の高いビジョントランスフォーマー(ViT)は、より訓練が難しい。
プリトレーニングにマスク画像モデリング(mim)を使用する場合,vitの深層層では劣化問題が発生する。
より深い ViT のトレーニングを容易にするため,我々はMasked Image Residual Learning (MIRL) と呼ばれる自己教師型学習フレームワークを導入する。
マスク画像の残像を復元するための学習として,ViTの深い層に対する事前学習目標を再構築する。
我々は,深部 ViT を MIRL を用いて効果的に最適化し,深部 ViT の精度向上を図っている。
ViT-Base や ViT-Large と同じ計算量で 4.5$\times$ と 2$\times$ の ViT-S-54 と ViT-B-48 をインスタンス化する。
より深いViT-S-54は3$\times$ ViT-Largeより安く、ViT-Largeと同等のパフォーマンスを実現している。
ViT-B-48は、ImageNetで86.2%のトップ1の精度を達成した。
一方、MIRLで事前訓練された深いViTは、オブジェクト検出やセマンティックセグメンテーションといった下流タスクに優れた一般化能力を示す。
一方、MIRLは事前学習効率が高い。
事前トレーニング時間が少ないため、MIRLは他のアプローチと比較して競争性能が向上する。
関連論文リスト
- An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z) - ViTMatte: Boosting Image Matting with Pretrained Plain Vision
Transformers [30.806562284544682]
そこで我々は,ViTMatteという,高効率でロバストなVTベースのマットシステムを提案する。
提案手法は, (i) コンボリューションネックと組み合わされたハイブリッドアテンション機構を用いて, 組合わせ作業における優れた性能計算トレードオフを実現する。
コンポジション1k と Distinctions-646 の ViTMatte を画像マッチングの最もよく使われるベンチマークとして評価し,提案手法は最先端の性能を達成し,従来よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2023-05-24T15:59:35Z) - When Adversarial Training Meets Vision Transformers: Recipes from
Training to Architecture [32.260596998171835]
ViTがこのような敵の攻撃に対して防衛するためには、依然として敵の訓練が必要である。
対人訓練にはプレトレーニングとSGDが必要であることが判明した。
私たちのコードはhttps://versa.com/mo666666/When-Adrial-Training-Meets-Vision-Transformersで利用可能です。
論文 参考訳(メタデータ) (2022-10-14T05:37:20Z) - DeiT III: Revenge of the ViT [56.46810490275699]
Vision Transformer (ViT) は、複数のコンピュータビジョンタスクを処理可能なシンプルなニューラルネットワークアーキテクチャである。
最近の研究によると、ViTsはBeiTのようなBerTライクな事前訓練の恩恵を受けている。
論文 参考訳(メタデータ) (2022-04-14T17:13:44Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。