論文の概要: Auto-scaling Vision Transformers without Training
- arxiv url: http://arxiv.org/abs/2202.11921v2
- Date: Sun, 27 Feb 2022 21:38:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 11:54:17.947320
- Title: Auto-scaling Vision Transformers without Training
- Title(参考訳): トレーニング不要の自動スケーリングビジョントランス
- Authors: Wuyang Chen, Wei Huang, Xianzhi Du, Xiaodan Song, Zhangyang Wang,
Denny Zhou
- Abstract要約: 本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 84.34662535276898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work targets automated designing and scaling of Vision Transformers
(ViTs). The motivation comes from two pain spots: 1) the lack of efficient and
principled methods for designing and scaling ViTs; 2) the tremendous
computational cost of training ViT that is much heavier than its convolution
counterpart. To tackle these issues, we propose As-ViT, an auto-scaling
framework for ViTs without training, which automatically discovers and scales
up ViTs in an efficient and principled manner. Specifically, we first design a
"seed" ViT topology by leveraging a training-free search process. This
extremely fast search is fulfilled by a comprehensive study of ViT's network
complexity, yielding a strong Kendall-tau correlation with ground-truth
accuracies. Second, starting from the "seed" topology, we automate the scaling
rule for ViTs by growing widths/depths to different ViT layers. This results in
a series of architectures with different numbers of parameters in a single run.
Finally, based on the observation that ViTs can tolerate coarse tokenization in
early training stages, we propose a progressive tokenization strategy to train
ViTs faster and cheaper. As a unified framework, As-ViT achieves strong
performance on classification (83.5% top1 on ImageNet-1k) and detection (52.7%
mAP on COCO) without any manual crafting nor scaling of ViT architectures: the
end-to-end model design and scaling process cost only 12 hours on one V100 GPU.
Our code is available at https://github.com/VITA-Group/AsViT.
- Abstract(参考訳): この作業は視覚変換器(ViT)の自動設計とスケーリングを目標としている。
動機は2つの痛点から来ています
1)vitの設計及びスケーリングのための効率的かつ原則的な方法の欠如
2) 畳み込みよりもはるかに重いViTを訓練する際の膨大な計算コスト。
これらの課題に対処するために、トレーニングなしでViTを自動スケーリングするフレームワークAs-ViTを提案する。
具体的には,トレーニングフリーな検索プロセスを用いて"シード"vitトポロジを設計した。
この極めて高速な探索は、ViTのネットワーク複雑性の包括的研究によって達成され、Kendall-Tau の強い相関と接地トラストの精度をもたらす。
次に、"シード"トポロジから、さまざまなViT層に幅/深さを拡大することで、ViTのスケーリングルールを自動化する。
これにより、単一の実行で異なるパラメータ数を持つ一連のアーキテクチャが実現される。
最後に,ViTsが早期トレーニングにおいて粗いトークン化を許容できるという観察に基づいて,ViTsを迅速かつ安価にトレーニングするためのプログレッシブトークン化戦略を提案する。
統一されたフレームワークとして、As-ViTは分類(ImageNet-1kで83.5%)と検出(COCOで52.7% mAP)において、VTアーキテクチャのマニュアル作成やスケーリングを行わず、強力なパフォーマンスを実現している。
私たちのコードはhttps://github.com/VITA-Group/AsViT.comで利用可能です。
関連論文リスト
- Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。
カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。
本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文 参考訳(メタデータ) (2022-11-03T13:19:23Z) - Training-free Transformer Architecture Search [89.88412583106741]
Vision Transformer (ViT) はいくつかのコンピュータビジョンタスクで顕著な成功を収めた。
現在のTransformer Architecture Search (TAS) の手法は時間がかかり、既存のCNNのゼロコストプロキシはViT検索空間にうまく一般化していない。
本稿では,TASをトレーニング不要な方法で実施する方法を初めて検討し,効果的なトレーニング不要なTASスキームを考案する。
論文 参考訳(メタデータ) (2022-03-23T06:06:54Z) - Unified Visual Transformer Compression [102.26265546836329]
本稿では,3つの有効な手法をシームレスに組み立てる,統一的なViT圧縮フレームワークを提案する。
予算制約のあるエンドツーエンドの最適化フレームワークを定式化し、モデルウェイトを共同学習し、レイヤーワイドプルーニング比/マスクを作成し、構成をスキップする。
実験は、ImageNetデータセット上のDeiTやT2T-ViTのバックボーンなど、いくつかのViT変種で実施されています。
論文 参考訳(メタデータ) (2022-03-15T20:38:22Z) - How to augment your ViTs? Consistency loss and StyleAug, a random style
transfer augmentation [4.3012765978447565]
Vision Transformer (ViT) アーキテクチャは、最近、様々なコンピュータビジョンタスクで競合する性能を達成した。
ViTsの背景にある動機の1つは、畳み込みニューラルネットワーク(CNN)と比較して誘導バイアスが弱いことである。
論文 参考訳(メタデータ) (2021-12-16T23:56:04Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。