論文の概要: Training-free Transformer Architecture Search
- arxiv url: http://arxiv.org/abs/2203.12217v1
- Date: Wed, 23 Mar 2022 06:06:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 15:25:09.861321
- Title: Training-free Transformer Architecture Search
- Title(参考訳): トレーニングフリートランスフォーマーアーキテクチャ探索
- Authors: Qinqin Zhou, Kekai Sheng, Xiawu Zheng, Ke Li, Xing Sun, Yonghong Tian,
Jie Chen, Rongrong Ji
- Abstract要約: Vision Transformer (ViT) はいくつかのコンピュータビジョンタスクで顕著な成功を収めた。
現在のTransformer Architecture Search (TAS) の手法は時間がかかり、既存のCNNのゼロコストプロキシはViT検索空間にうまく一般化していない。
本稿では,TASをトレーニング不要な方法で実施する方法を初めて検討し,効果的なトレーニング不要なTASスキームを考案する。
- 参考スコア(独自算出の注目度): 89.88412583106741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Vision Transformer (ViT) has achieved remarkable success in several
computer vision tasks. The progresses are highly relevant to the architecture
design, then it is worthwhile to propose Transformer Architecture Search (TAS)
to search for better ViTs automatically. However, current TAS methods are
time-consuming and existing zero-cost proxies in CNN do not generalize well to
the ViT search space according to our experimental observations. In this paper,
for the first time, we investigate how to conduct TAS in a training-free manner
and devise an effective training-free TAS (TF-TAS) scheme. Firstly, we observe
that the properties of multi-head self-attention (MSA) and multi-layer
perceptron (MLP) in ViTs are quite different and that the synaptic diversity of
MSA affects the performance notably. Secondly, based on the observation, we
devise a modular strategy in TF-TAS that evaluates and ranks ViT architectures
from two theoretical perspectives: synaptic diversity and synaptic saliency,
termed as DSS-indicator. With DSS-indicator, evaluation results are strongly
correlated with the test accuracies of ViT models. Experimental results
demonstrate that our TF-TAS achieves a competitive performance against the
state-of-the-art manually or automatically design ViT architectures, and it
promotes the searching efficiency in ViT search space greatly: from about $24$
GPU days to less than $0.5$ GPU days. Moreover, the proposed DSS-indicator
outperforms the existing cutting-edge zero-cost approaches (e.g., TE-score and
NASWOT).
- Abstract(参考訳): 近年,ビジョントランスフォーマー (ViT) はコンピュータビジョンタスクにおいて顕著な成功を収めている。
進歩はアーキテクチャ設計と非常に関連しており、より良いvitsを自動的に検索するためにtransformer architecture search (tas)を提案する価値がある。
しかし、現在のTAS法は時間がかかり、CNNの既存のゼロコストプロキシは、我々の実験的な観察により、ViT検索空間にうまく一般化しない。
本稿では,TASをトレーニング自由な方法で実施する方法を初めて検討し,効果的なトレーニング自由なTAS(TF-TAS)方式を考案する。
まず,マルチヘッド自己注意(MSA)とマルチ層パーセプトロン(MLP)のViTにおける特性が全く異なり,MSAのシナプスの多様性が性能に顕著に影響を及ぼすことを観察する。
次に,dss-indicator(dss-indicator)と呼ばれるシナプス多様性(synaptic diversity)とシナプス塩分(synaptic saliency)という2つの理論的な観点からvitアーキテクチャを評価し,分類するtf-tasのモジュラー戦略を考案する。
DSS-indicatorでは、評価結果はViTモデルの試験精度と強く相関する。
実験の結果、TF-TASは、手動で、あるいは自動でViTアーキテクチャを設計し、VT検索空間の探索効率を大幅に向上させ、約24ドルGPU日から0.5ドルGPU日以下まで、我々のTF-TASは競争性能を発揮することが示された。
さらに、提案したDSS指標は、既存の最先端ゼロコストアプローチ(TEスコアやNASWOTなど)よりも優れている。
関連論文リスト
- Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - TRT-ViT: TensorRT-oriented Vision Transformer [19.173764508139016]
RT指向トランスフォーマーのファミリが提示され、略称はRT-ViTである。
大規模な実験により、RTT-ViTは既存のConvNetとビジョントランスフォーマーを著しく上回っている。
論文 参考訳(メタデータ) (2022-05-19T14:20:25Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - Vision Transformer Architecture Search [64.73920718915282]
現在の視覚変換器(ViT)は、自然言語処理(NLP)タスクから単純に継承される。
ハードウェア予算に類似した最適アーキテクチャを探索するために,ViTASと呼ばれるアーキテクチャ探索手法を提案する。
検索したアーキテクチャは、ImageNetで74.7%の精度で、現在のベースラインのViTアーキテクチャよりも2.5%高い。
論文 参考訳(メタデータ) (2021-06-25T15:39:08Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。