Fugu-MT 論文翻訳(概要): Training-free Transformer Architecture Search

論文の概要: Training-free Transformer Architecture Search

arxiv url: http://arxiv.org/abs/2203.12217v1
Date: Wed, 23 Mar 2022 06:06:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-24 15:25:09.861321
Title: Training-free Transformer Architecture Search
Title（参考訳）: トレーニングフリートランスフォーマーアーキテクチャ探索
Authors: Qinqin Zhou, Kekai Sheng, Xiawu Zheng, Ke Li, Xing Sun, Yonghong Tian, Jie Chen, Rongrong Ji
Abstract要約: Vision Transformer (ViT) はいくつかのコンピュータビジョンタスクで顕著な成功を収めた。現在のTransformer Architecture Search (TAS) の手法は時間がかかり、既存のCNNのゼロコストプロキシはViT検索空間にうまく一般化していない。本稿では,TASをトレーニング不要な方法で実施する方法を初めて検討し,効果的なトレーニング不要なTASスキームを考案する。
参考スコア（独自算出の注目度）: 89.88412583106741
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Vision Transformer (ViT) has achieved remarkable success in several computer vision tasks. The progresses are highly relevant to the architecture design, then it is worthwhile to propose Transformer Architecture Search (TAS) to search for better ViTs automatically. However, current TAS methods are time-consuming and existing zero-cost proxies in CNN do not generalize well to the ViT search space according to our experimental observations. In this paper, for the first time, we investigate how to conduct TAS in a training-free manner and devise an effective training-free TAS (TF-TAS) scheme. Firstly, we observe that the properties of multi-head self-attention (MSA) and multi-layer perceptron (MLP) in ViTs are quite different and that the synaptic diversity of MSA affects the performance notably. Secondly, based on the observation, we devise a modular strategy in TF-TAS that evaluates and ranks ViT architectures from two theoretical perspectives: synaptic diversity and synaptic saliency, termed as DSS-indicator. With DSS-indicator, evaluation results are strongly correlated with the test accuracies of ViT models. Experimental results demonstrate that our TF-TAS achieves a competitive performance against the state-of-the-art manually or automatically design ViT architectures, and it promotes the searching efficiency in ViT search space greatly: from about $24$ GPU days to less than $0.5$ GPU days. Moreover, the proposed DSS-indicator outperforms the existing cutting-edge zero-cost approaches (e.g., TE-score and NASWOT).
Abstract（参考訳）: 近年,ビジョントランスフォーマー (ViT) はコンピュータビジョンタスクにおいて顕著な成功を収めている。進歩はアーキテクチャ設計と非常に関連しており、より良いvitsを自動的に検索するためにtransformer architecture search (tas)を提案する価値がある。しかし、現在のTAS法は時間がかかり、CNNの既存のゼロコストプロキシは、我々の実験的な観察により、ViT検索空間にうまく一般化しない。本稿では,TASをトレーニング自由な方法で実施する方法を初めて検討し,効果的なトレーニング自由なTAS(TF-TAS)方式を考案する。まず,マルチヘッド自己注意(MSA)とマルチ層パーセプトロン(MLP)のViTにおける特性が全く異なり,MSAのシナプスの多様性が性能に顕著に影響を及ぼすことを観察する。次に,dss-indicator(dss-indicator)と呼ばれるシナプス多様性(synaptic diversity)とシナプス塩分(synaptic saliency)という2つの理論的な観点からvitアーキテクチャを評価し,分類するtf-tasのモジュラー戦略を考案する。 DSS-indicatorでは、評価結果はViTモデルの試験精度と強く相関する。実験の結果、TF-TASは、手動で、あるいは自動でViTアーキテクチャを設計し、VT検索空間の探索効率を大幅に向上させ、約24ドルGPU日から0.5ドルGPU日以下まで、我々のTF-TASは競争性能を発揮することが示された。さらに、提案したDSS指標は、既存の最先端ゼロコストアプローチ(TEスコアやNASWOTなど)よりも優れている。

関連論文リスト

Stronger ViTs With Octic Equivariance [13.357266345180296]
ViT(Vision Transformers)は、画像パッチ上の重み共有を重要な帰納バイアスとして組み込んでいる。我々は,オクティック・平等な層を用いた新しいアーキテクチャであるオクティック・ヴァイツを開発し,教師付き学習と自己教師型学習の両面でのテストに投入する。また,VT-HのFLOPの約40%の削減を実現し,分類とセグメンテーションの両面で改善した。
論文参考訳（メタデータ） (2025-05-21T12:22:53Z)
Similarity-Guided Layer-Adaptive Vision Transformer for UAV Tracking [11.602484345266484]
ヴィジュアル・トランスフォーマー(ViT)は、視覚追跡のための一般的なバックボーンとして登場した。無人航空機(UAV)の追跡にはViTは面倒すぎる。本稿では,ViTの構造を最適化する類似性誘導層適応手法を提案する。
論文参考訳（メタデータ） (2025-03-09T14:02:30Z)
Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文参考訳（メタデータ） (2024-07-25T16:35:46Z)
TRT-ViT: TensorRT-oriented Vision Transformer [19.173764508139016]
RT指向トランスフォーマーのファミリが提示され、略称はRT-ViTである。大規模な実験により、RTT-ViTは既存のConvNetとビジョントランスフォーマーを著しく上回っている。
論文参考訳（メタデータ） (2022-05-19T14:20:25Z)
Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。 As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。 As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-02-24T06:30:55Z)
A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文参考訳（メタデータ） (2021-11-30T05:01:02Z)
Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文参考訳（メタデータ） (2021-11-24T16:48:57Z)
Vision Transformer Architecture Search [64.73920718915282]
現在の視覚変換器(ViT)は、自然言語処理(NLP)タスクから単純に継承される。ハードウェア予算に類似した最適アーキテクチャを探索するために,ViTASと呼ばれるアーキテクチャ探索手法を提案する。検索したアーキテクチャは、ImageNetで74.7%の精度で、現在のベースラインのViTアーキテクチャよりも2.5%高い。
論文参考訳（メタデータ） (2021-06-25T15:39:08Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。