論文の概要: ElasticViT: Conflict-aware Supernet Training for Deploying Fast Vision
Transformer on Diverse Mobile Devices
- arxiv url: http://arxiv.org/abs/2303.09730v2
- Date: Tue, 21 Mar 2023 10:11:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 11:18:29.105296
- Title: ElasticViT: Conflict-aware Supernet Training for Deploying Fast Vision
Transformer on Diverse Mobile Devices
- Title(参考訳): elasticvit: さまざまなモバイルデバイスに高速ビジョントランスフォーマーをデプロイするためのコンフリクトアウェアスーパーネットトレーニング
- Authors: Chen Tang, Li Lyna Zhang, Huiqiang Jiang, Jiahang Xu, Ting Cao, Quanlu
Zhang, Yuqing Yang, Zhi Wang, Mao Yang
- Abstract要約: 非常に大きな検索空間上で高品質なViTスーパーネットをトレーニングする2段階NASアプローチであるElasticViTを提案する。
本稿では,複雑性を意識したサンプリングと性能を意識したサンプリングという2つの新しいサンプリング手法を提案する。
我々のモデルは、ImageNetの67.2%から80.0%までのトップ1の精度を6000万から800万のFLOPから、余分なリトレーニングなしで達成している。
- 参考スコア(独自算出の注目度): 15.489158878599383
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Neural Architecture Search (NAS) has shown promising performance in the
automatic design of vision transformers (ViT) exceeding 1G FLOPs. However,
designing lightweight and low-latency ViT models for diverse mobile devices
remains a big challenge. In this work, we propose ElasticViT, a two-stage NAS
approach that trains a high-quality ViT supernet over a very large search space
that supports a wide range of mobile devices, and then searches an optimal
sub-network (subnet) for direct deployment. However, prior supernet training
methods that rely on uniform sampling suffer from the gradient conflict issue:
the sampled subnets can have vastly different model sizes (e.g., 50M vs. 2G
FLOPs), leading to different optimization directions and inferior performance.
To address this challenge, we propose two novel sampling techniques:
complexity-aware sampling and performance-aware sampling. Complexity-aware
sampling limits the FLOPs difference among the subnets sampled across adjacent
training steps, while covering different-sized subnets in the search space.
Performance-aware sampling further selects subnets that have good accuracy,
which can reduce gradient conflicts and improve supernet quality. Our
discovered models, ElasticViT models, achieve top-1 accuracy from 67.2% to
80.0% on ImageNet from 60M to 800M FLOPs without extra retraining,
outperforming all prior CNNs and ViTs in terms of accuracy and latency. Our
tiny and small models are also the first ViT models that surpass
state-of-the-art CNNs with significantly lower latency on mobile devices. For
instance, ElasticViT-S1 runs 2.62x faster than EfficientNet-B0 with 0.1% higher
accuracy.
- Abstract(参考訳): ニューラルアーキテクチャサーチ(NAS)は、1G FLOPを超える視覚変換器(ViT)の自動設計において有望な性能を示した。
しかし、多様なモバイルデバイス向けに軽量で低レイテンシのViTモデルを設計することは大きな課題だ。
本研究では,多種多様なモバイルデバイスをサポートする非常に大きな検索空間上で高品質なvitスーパーネットをトレーニングし,最適なサブネットワーク(サブネット)を検索して直接配置する2段階nasアプローチであるelasticvitを提案する。
しかし、一様サンプリングに依存する事前のスーパーネットトレーニング手法は、勾配競合の問題に悩まされ、サンプル化されたサブネットはモデルサイズが大きく異なり(例えば、50M対2G FLOP)、最適化の方向が異なり、性能が劣る。
そこで本研究では,この課題に対処するために,複雑性対応サンプリングとパフォーマンス対応サンプリングという2つの新しいサンプリング手法を提案する。
複雑性を意識したサンプリングは、隣接するトレーニングステップでサンプリングされたサブネット間のフラップ差を制限し、検索空間で異なるサイズのサブネットをカバーする。
パフォーマンスアウェアサンプリングはさらに精度のよいサブネットを選択し、グラデーションコンフリクトを低減し、スーパーネットの品質を向上させる。
発見されたモデルであるElasticViTモデルは、ImageNetの67.2%から80.0%までのトップ1の精度を60Mから800MのFLOPから追加のトレーニングなしで達成し、精度とレイテンシの観点から、以前のCNNやViTよりも優れています。
私たちの小さなモデルと小さなモデルも、モバイルデバイスのレイテンシが大幅に低い最先端のCNNを上回る最初のViTモデルです。
例えば elasticvit-s1 は efficientnet-b0 よりも 2.62倍高速で、精度は 0.1% 高い。
関連論文リスト
- Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - FMViT: A multiple-frequency mixing Vision Transformer [17.609263967586926]
FMViT という名前の効率的なハイブリッド ViT アーキテクチャを提案する。
このアプローチは、高周波の特徴と低周波の特徴を様々な周波数でブレンドし、ローカル情報とグローバル情報の両方を効果的に捉えることができる。
我々は、FMViTが既存のCNN、ViT、CNNTransformerのハイブリッドアーキテクチャを、様々なビジョンタスクのレイテンシ/精度トレードオフの観点から上回っていることを実証した。
論文 参考訳(メタデータ) (2023-11-09T19:33:50Z) - TFormer: A Transmission-Friendly ViT Model for IoT Devices [23.67389080796814]
本稿では、クラウドサーバの助けを借りて、リソースに制約のあるIoTデバイスに展開するためのトランスミッションフレンドリーなViTモデルであるTFormerを提案する。
ImageNet-1K、MS COCO、ADE20Kデータセットによる画像分類、オブジェクト検出、セマンティックセグメンテーションタスクの実験結果は、提案モデルが他の最先端モデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-15T15:36:10Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Bilaterally Slimmable Transformer for Elastic and Efficient Visual
Question Answering [75.86788916930377]
左右にスリム化可能なトランスフォーマー(BST)は任意のトランスフォーマーベースのVQAモデルに統合される。
1つのスリム化MCAN-BSTサブモデルは、VQA-v2で同等の精度を達成する。
最も小さなMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPを持つ。
論文 参考訳(メタデータ) (2022-03-24T02:26:04Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - SuperShaper: Task-Agnostic Super Pre-training of BERT Models with
Variable Hidden Dimensions [2.8583189395674653]
SuperShaper は NLU モデルのタスクに依存しない事前学習手法である。
異なる形状で多数のトランスフォーマーモデルを同時に事前訓練する。
SuperShaperは、精度とモデルサイズを効果的にトレードオフするネットワークを発見する。
論文 参考訳(メタデータ) (2021-10-10T05:44:02Z) - Searching for Two-Stream Models in Multivariate Space for Video
Recognition [80.25356538056839]
本稿では,巨大空間における2ストリーム映像モデルを効率的に検索できる実用的ニューラルアーキテクチャ探索手法を提案する。
設計空間において,性能が著しく向上した2ストリームモデルを自動的に発見できることを実証する。
論文 参考訳(メタデータ) (2021-08-30T02:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。