Fugu-MT 論文翻訳(概要): ElasticViT: Conflict-aware Supernet Training for Deploying Fast Vision Transformer on Diverse Mobile Devices

論文の概要: ElasticViT: Conflict-aware Supernet Training for Deploying Fast Vision Transformer on Diverse Mobile Devices

arxiv url: http://arxiv.org/abs/2303.09730v1
Date: Fri, 17 Mar 2023 02:19:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-20 15:48:35.019503
Title: ElasticViT: Conflict-aware Supernet Training for Deploying Fast Vision Transformer on Diverse Mobile Devices
Title（参考訳）: elasticvit: さまざまなモバイルデバイスに高速ビジョントランスフォーマーをデプロイするためのコンフリクトアウェアスーパーネットトレーニング
Authors: Chen Tang, Li Lyna Zhang, Huiqiang Jiang, Jiahang Xu, Ting Cao, Quanlu Zhang, Yuqing Yang, Zhi Wang, Mao Yang
Abstract要約: 非常に大きな検索空間上で高品質なViTスーパーネットをトレーニングする2段階NASアプローチであるElasticViTを提案する。本稿では,複雑性を意識したサンプリングと性能を意識したサンプリングという2つの新しいサンプリング手法を提案する。我々のモデルは、ImageNetの67.2%から80.0%までのトップ1の精度を6000万から800万のFLOPから、余分なリトレーニングなしで達成している。
参考スコア（独自算出の注目度）: 15.489158878599383
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Neural Architecture Search (NAS) has shown promising performance in the automatic design of vision transformers (ViT) exceeding 1G FLOPs. However, designing lightweight and low-latency ViT models for diverse mobile devices remains a big challenge. In this work, we propose ElasticViT, a two-stage NAS approach that trains a high-quality ViT supernet over a very large search space that supports a wide range of mobile devices, and then searches an optimal sub-network (subnet) for direct deployment. However, prior supernet training methods that rely on uniform sampling suffer from the gradient conflict issue: the sampled subnets can have vastly different model sizes (e.g., 50M vs. 2G FLOPs), leading to different optimization directions and inferior performance. To address this challenge, we propose two novel sampling techniques: complexity-aware sampling and performance-aware sampling. Complexity-aware sampling limits the FLOPs difference among the subnets sampled across adjacent training steps, while covering different-sized subnets in the search space. Performance-aware sampling further selects subnets that have good accuracy, which can reduce gradient conflicts and improve supernet quality. Our discovered models, ElasticViT models, achieve top-1 accuracy from 67.2% to 80.0% on ImageNet from 60M to 800M FLOPs without extra retraining, outperforming all prior CNNs and ViTs in terms of accuracy and latency. Our tiny and small models are also the first ViT models that surpass state-of-the-art CNNs with significantly lower latency on mobile devices. For instance, ElasticViT-S1 runs 2.62x faster than EfficientNet-B0 with 0.1% higher accuracy.
Abstract（参考訳）: ニューラルアーキテクチャサーチ(NAS)は、1G FLOPを超える視覚変換器(ViT)の自動設計において有望な性能を示した。しかし、多様なモバイルデバイス向けに軽量で低レイテンシのViTモデルを設計することは大きな課題だ。本研究では,多種多様なモバイルデバイスをサポートする非常に大きな検索空間上で高品質なvitスーパーネットをトレーニングし,最適なサブネットワーク(サブネット)を検索して直接配置する2段階nasアプローチであるelasticvitを提案する。しかし、一様サンプリングに依存する事前のスーパーネットトレーニング手法は、勾配競合の問題に悩まされ、サンプル化されたサブネットはモデルサイズが大きく異なり(例えば、50M対2G FLOP)、最適化の方向が異なり、性能が劣る。そこで本研究では,この課題に対処するために,複雑性対応サンプリングとパフォーマンス対応サンプリングという2つの新しいサンプリング手法を提案する。複雑性を意識したサンプリングは、隣接するトレーニングステップでサンプリングされたサブネット間のフラップ差を制限し、検索空間で異なるサイズのサブネットをカバーする。パフォーマンスアウェアサンプリングはさらに精度のよいサブネットを選択し、グラデーションコンフリクトを低減し、スーパーネットの品質を向上させる。発見されたモデルであるElasticViTモデルは、ImageNetの67.2%から80.0%までのトップ1の精度を60Mから800MのFLOPから追加のトレーニングなしで達成し、精度とレイテンシの観点から、以前のCNNやViTよりも優れています。私たちの小さなモデルと小さなモデルも、モバイルデバイスのレイテンシが大幅に低い最先端のCNNを上回る最初のViTモデルです。例えば elasticvit-s1 は efficientnet-b0 よりも 2.62倍高速で、精度は 0.1% 高い。

関連論文リスト

Janus: Collaborative Vision Transformer Under Dynamic Network Environment [12.78456917946342]
ビジョントランスフォーマー(ViT)は、従来の畳み込みニューラルネットワークアーキテクチャよりも優れており、様々なコンピュータビジョンタスクにおいて最先端の結果を達成した。 ViTは計算コストがかかるため、リソース制限されたエッジデバイス上でのみ動作させるか、変動するネットワークを介して送信された生データを受信した後、リモートクラウドサーバで実行する必要がある。我々は、動的ネットワーク上での低レイテンシクラウド-デバイス協調型ビジョントランスフォーマー推論のための最初のフレームワークであるJanusを紹介する。
論文参考訳（メタデータ） (2025-02-14T09:49:52Z)
Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文参考訳（メタデータ） (2024-07-25T16:35:46Z)
FMViT: A multiple-frequency mixing Vision Transformer [17.609263967586926]
FMViT という名前の効率的なハイブリッド ViT アーキテクチャを提案する。このアプローチは、高周波の特徴と低周波の特徴を様々な周波数でブレンドし、ローカル情報とグローバル情報の両方を効果的に捉えることができる。我々は、FMViTが既存のCNN、ViT、CNNTransformerのハイブリッドアーキテクチャを、様々なビジョンタスクのレイテンシ/精度トレードオフの観点から上回っていることを実証した。
論文参考訳（メタデータ） (2023-11-09T19:33:50Z)
TFormer: A Transmission-Friendly ViT Model for IoT Devices [23.67389080796814]
本稿では、クラウドサーバの助けを借りて、リソースに制約のあるIoTデバイスに展開するためのトランスミッションフレンドリーなViTモデルであるTFormerを提案する。 ImageNet-1K、MS COCO、ADE20Kデータセットによる画像分類、オブジェクト検出、セマンティックセグメンテーションタスクの実験結果は、提案モデルが他の最先端モデルよりも優れていることを示している。
論文参考訳（メタデータ） (2023-02-15T15:36:10Z)
Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文参考訳（メタデータ） (2022-12-15T18:59:12Z)
EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文参考訳（メタデータ） (2022-05-06T18:17:19Z)
Bilaterally Slimmable Transformer for Elastic and Efficient Visual Question Answering [75.86788916930377]
左右にスリム化可能なトランスフォーマー(BST)は任意のトランスフォーマーベースのVQAモデルに統合される。 1つのスリム化MCAN-BSTサブモデルは、VQA-v2で同等の精度を達成する。最も小さなMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPを持つ。
論文参考訳（メタデータ） (2022-03-24T02:26:04Z)
Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文参考訳（メタデータ） (2021-11-23T11:35:54Z)
SuperShaper: Task-Agnostic Super Pre-training of BERT Models with Variable Hidden Dimensions [2.8583189395674653]
SuperShaper は NLU モデルのタスクに依存しない事前学習手法である。異なる形状で多数のトランスフォーマーモデルを同時に事前訓練する。 SuperShaperは、精度とモデルサイズを効果的にトレードオフするネットワークを発見する。
論文参考訳（メタデータ） (2021-10-10T05:44:02Z)
Searching for Two-Stream Models in Multivariate Space for Video Recognition [80.25356538056839]
本稿では,巨大空間における2ストリーム映像モデルを効率的に検索できる実用的ニューラルアーキテクチャ探索手法を提案する。設計空間において,性能が著しく向上した2ストリームモデルを自動的に発見できることを実証する。
論文参考訳（メタデータ） (2021-08-30T02:03:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。