論文の概要: Searching for Efficient Multi-Stage Vision Transformers
- arxiv url: http://arxiv.org/abs/2109.00642v1
- Date: Wed, 1 Sep 2021 22:37:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-04 03:14:21.932316
- Title: Searching for Efficient Multi-Stage Vision Transformers
- Title(参考訳): 効率的な多段視覚変換器の探索
- Authors: Yi-Lun Liao and Sertac Karaman and Vivienne Sze
- Abstract要約: Vision Transformer (ViT)は、自然言語処理のためのTransformerがコンピュータビジョンタスクに適用可能であることを示す。
ViT-ResNASは、ニューラルネットワークサーチ(NAS)で設計された効率的なマルチステージViTアーキテクチャである
- 参考スコア(独自算出の注目度): 42.0565109812926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformer (ViT) demonstrates that Transformer for natural language
processing can be applied to computer vision tasks and result in comparable
performance to convolutional neural networks (CNN), which have been studied and
adopted in computer vision for years. This naturally raises the question of how
the performance of ViT can be advanced with design techniques of CNN. To this
end, we propose to incorporate two techniques and present ViT-ResNAS, an
efficient multi-stage ViT architecture designed with neural architecture search
(NAS). First, we propose residual spatial reduction to decrease sequence
lengths for deeper layers and utilize a multi-stage architecture. When reducing
lengths, we add skip connections to improve performance and stabilize training
deeper networks. Second, we propose weight-sharing NAS with multi-architectural
sampling. We enlarge a network and utilize its sub-networks to define a search
space. A super-network covering all sub-networks is then trained for fast
evaluation of their performance. To efficiently train the super-network, we
propose to sample and train multiple sub-networks with one forward-backward
pass. After that, evolutionary search is performed to discover high-performance
network architectures. Experiments on ImageNet demonstrate that ViT-ResNAS
achieves better accuracy-MACs and accuracy-throughput trade-offs than the
original DeiT and other strong baselines of ViT. Code is available at
https://github.com/yilunliao/vit-search.
- Abstract(参考訳): 視覚トランスフォーマー (vit) は、自然言語処理のトランスフォーマーがコンピュータビジョンタスクに適用可能であり、長年コンピュータビジョンで研究され採用されてきた畳み込みニューラルネットワーク (cnn) に匹敵する性能をもたらすことを実証している。
これにより、CNNの設計技術によってViTのパフォーマンスが向上するかどうかという疑問が自然に持ち上がる。
この目的のために,ニューラルアーキテクチャサーチ (NAS) を用いた効率的な多段階型ViTアーキテクチャであるViT-ResNASを提案する。
まず,より深い層におけるシーケンス長の削減と多段構造を用いた残留空間削減を提案する。
長さを減らすためにスキップ接続を追加し、性能を改善し、より深いネットワークのトレーニングを安定化します。
次に,マルチアーキテクチャサンプリングを用いた重み共有NASを提案する。
ネットワークを拡大し,そのサブネットワークを用いて検索空間を定義する。
すべてのサブネットワークをカバーするスーパーネットワークは、パフォーマンスの迅速な評価のためにトレーニングされる。
本稿では,スーパーネットワークを効率的にトレーニングするために,複数サブネットワークのサンプルとトレーニングを行う。
その後、高性能ネットワークアーキテクチャを発見するために進化探索を行う。
ImageNetの実験では、ViT-ResNASは元のDeiTや他のViTの強力なベースラインよりも精度の高いMACと精度の高いスループットトレードオフを実現している。
コードはhttps://github.com/yilunliao/vit-searchで入手できる。
関連論文リスト
- Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - Pruning-as-Search: Efficient Neural Architecture Search via Channel
Pruning and Structural Reparameterization [50.50023451369742]
プルーニング・アズ・サーチ(Pruning-as-Search、PaS)は、必要なサブネットワークを自動的に効率的に検索するエンドツーエンドのプルーニング手法である。
提案したアーキテクチャは,ImageNet-1000分類タスクにおいて,1.0%$ Top-1精度で先行技術より優れていた。
論文 参考訳(メタデータ) (2022-06-02T17:58:54Z) - Evolutionary Neural Cascade Search across Supernetworks [68.8204255655161]
ENCAS - Evolutionary Neural Cascade Searchを紹介する。
ENCASは、複数の事前訓練されたスーパーネットを探索するために使用することができる。
我々は、一般的なコンピュータビジョンベンチマークでEMCASをテストする。
論文 参考訳(メタデータ) (2022-03-08T11:06:01Z) - A Hardware-Aware System for Accelerating Deep Neural Network
Optimization [7.189421078452572]
本稿では,事前学習したスーパーネットワークからサブネットワークを自動的に,かつ効率的に検出する包括的システムを提案する。
新たな探索手法とアルゴリズムと予測器のインテリジェントな利用を組み合わせることで、最適なサブネットワークを見つけるのに必要な時間を著しく短縮する。
論文 参考訳(メタデータ) (2022-02-25T20:07:29Z) - SuperShaper: Task-Agnostic Super Pre-training of BERT Models with
Variable Hidden Dimensions [2.8583189395674653]
SuperShaper は NLU モデルのタスクに依存しない事前学習手法である。
異なる形状で多数のトランスフォーマーモデルを同時に事前訓練する。
SuperShaperは、精度とモデルサイズを効果的にトレードオフするネットワークを発見する。
論文 参考訳(メタデータ) (2021-10-10T05:44:02Z) - PV-NAS: Practical Neural Architecture Search for Video Recognition [83.77236063613579]
ビデオタスクのためのディープニューラルネットワークは高度にカスタマイズされており、そのようなネットワークの設計にはドメインの専門家と高価な試行錯誤テストが必要である。
ネットワークアーキテクチャ検索の最近の進歩により、画像認識性能は大幅に向上した。
本研究では,実用的ビデオニューラルアーキテクチャ探索(PV-NAS)を提案する。
論文 参考訳(メタデータ) (2020-11-02T08:50:23Z) - Hierarchical Neural Architecture Search for Deep Stereo Matching [131.94481111956853]
本稿では, ディープステレオマッチングのための最初のエンドツーエンド階層型NASフレームワークを提案する。
我々のフレームワークは、タスク固有の人間の知識をニューラルアーキテクチャ検索フレームワークに組み込んでいる。
KITTI stereo 2012、2015、Middleburyベンチマークで1位、SceneFlowデータセットで1位にランクインしている。
論文 参考訳(メタデータ) (2020-10-26T11:57:37Z) - FNA++: Fast Network Adaptation via Parameter Remapping and Architecture
Search [35.61441231491448]
本稿では,シードネットワークのアーキテクチャとパラメータの両方を適応できるFNA++法を提案する。
実験では、FNA++をMobileNetV2に適用し、セマンティックセグメンテーション、オブジェクト検出、人間のポーズ推定のための新しいネットワークを得る。
FNA++の総計算コストは、SOTAセグメンテーションやNASアプローチよりも大幅に少ない。
論文 参考訳(メタデータ) (2020-06-21T10:03:34Z) - Fast Neural Network Adaptation via Parameter Remapping and Architecture
Search [35.61441231491448]
ディープニューラルネットワークは多くのコンピュータビジョンタスクにおいて顕著なパフォーマンスを達成する。
ほとんどの最新技術(SOTA)セマンティックセグメンテーションとオブジェクト検出アプローチは、バックボーンとしてイメージ分類用に設計されたニューラルネットワークアーキテクチャを再利用する。
しかし、大きな課題の1つは、画像Netによる検索空間表現の事前トレーニングが膨大な計算コストを発生させることである。
本稿では、シードネットワークのアーキテクチャとパラメータの両方を適応できる高速ニューラルネットワーク適応(FNA)手法を提案する。
論文 参考訳(メタデータ) (2020-01-08T13:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。