論文の概要: MobileNetV4 -- Universal Models for the Mobile Ecosystem
- arxiv url: http://arxiv.org/abs/2404.10518v2
- Date: Sun, 29 Sep 2024 21:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:59:41.932739
- Title: MobileNetV4 -- Universal Models for the Mobile Ecosystem
- Title(参考訳): MobileNetV4 - モバイルエコシステムのためのユニバーサルモデル
- Authors: Danfeng Qin, Chas Leichner, Manolis Delakis, Marco Fornoni, Shixin Luo, Fan Yang, Weijun Wang, Colby Banbury, Chengxi Ye, Berkin Akin, Vaibhav Aggarwal, Tenghui Zhu, Daniele Moro, Andrew Howard,
- Abstract要約: 我々はMobileNetV4(MNv4)として知られる最新のMobileNetを紹介する。
その中核となるのが,Universal Inverted Bottleneck (UIB) 検索ブロックである。
UIBとともに、モバイルアクセラレータ用に調整されたアテンションブロックであるMobile MQAを紹介します。
最適化されたニューラルネットワーク検索(NAS)レシピも導入され、MNv4検索の有効性が向上した。
- 参考スコア(独自算出の注目度): 7.23271949614454
- License:
- Abstract: We present the latest generation of MobileNets, known as MobileNetV4 (MNv4), featuring universally efficient architecture designs for mobile devices. At its core, we introduce the Universal Inverted Bottleneck (UIB) search block, a unified and flexible structure that merges Inverted Bottleneck (IB), ConvNext, Feed Forward Network (FFN), and a novel Extra Depthwise (ExtraDW) variant. Alongside UIB, we present Mobile MQA, an attention block tailored for mobile accelerators, delivering a significant 39% speedup. An optimized neural architecture search (NAS) recipe is also introduced which improves MNv4 search effectiveness. The integration of UIB, Mobile MQA and the refined NAS recipe results in a new suite of MNv4 models that are mostly Pareto optimal across mobile CPUs, DSPs, GPUs, as well as specialized accelerators like Apple Neural Engine and Google Pixel EdgeTPU - a characteristic not found in any other models tested. Finally, to further boost accuracy, we introduce a novel distillation technique. Enhanced by this technique, our MNv4-Hybrid-Large model delivers 87% ImageNet-1K accuracy, with a Pixel 8 EdgeTPU runtime of just 3.8ms.
- Abstract(参考訳): 次世代のMobileNetsはMobileNetV4(MNv4)と呼ばれ、モバイルデバイスの汎用的なアーキテクチャ設計を特徴としている。
Inverted Bottleneck (IB)、ConvNext、Feed Forward Network (FFN)、Exptra Depthwise (ExtraDW)を融合した統一・柔軟な構造であるUniversal Inverted Bottleneck (UIB)検索ブロックを導入する。
UIBとともに、モバイルアクセラレータ用に調整されたアテンションブロックであるMobile MQAを紹介します。
最適化されたニューラルネットワーク検索(NAS)レシピも導入され、MNv4検索の有効性が向上した。
UIB、Mobile MQA、洗練されたNASレシピの統合により、主にモバイルCPU、DSP、GPU、さらにはApple Neural EngineやGoogle Pixel EdgeTPUといった特別なアクセラレータでパレートが最適であるMNv4モデルの新たなスイートが実現した。
最後に, さらに精度を高めるため, 新しい蒸留技術を導入する。
この技術によって強化された我々のMNv4-Hybrid-Largeモデルは、Pixel 8 EdgeTPUランタイムがわずか3.8msの87%のImageNet-1Kの精度を提供する。
関連論文リスト
- Mobile V-MoEs: Scaling Down Vision Transformers via Sparse
Mixture-of-Experts [55.282613372420805]
我々は、資源制約された視覚アプリケーションにとってより魅力的な視覚変換器(ViT)をスケールダウンするために、スパースMOE(sparse MoEs)の使用について検討する。
我々は,個々のパッチではなく画像全体を専門家にルーティングする,シンプルでモバイルフレンドリーなMoE設計を提案する。
V-MoEs(V-MoEs)は高密度VTよりも性能と効率のトレードオフが優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-08T14:24:10Z) - FastViT: A Fast Hybrid Vision Transformer using Structural
Reparameterization [14.707312504365376]
我々は、最先端のレイテンシ-精度トレードオフを得るハイブリッドビジョントランスフォーマーアーキテクチャであるFastViTを紹介する。
我々は,当社のモデルがCMTの3.5倍,EfficientNetの4.9倍,モバイルデバイスのConvNeXtの1.9倍で,ImageNetデータセットと同じ精度であることを示す。
論文 参考訳(メタデータ) (2023-03-24T17:58:32Z) - Rethinking Mobile Block for Efficient Attention-based Models [60.0312591342016]
本稿では、パラメータ、FLOP、性能をトレードオフしながら、高密度予測のための現代的で効率的で軽量なモデルを開発することに焦点を当てる。
Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。
我々はCNNベースのIRBをアテンションベースモデルに拡張し、軽量モデル設計のためのMMB(One-Residual Meta Mobile Block)を抽象化する。
論文 参考訳(メタデータ) (2023-01-03T15:11:41Z) - MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision
Models [40.40784209977589]
本稿では、モビレ畳み込み(すなわち逆残差ブロック)とアテンションの上に構築されるニューラルネットワークのファミリーであるMOATについて述べる。
我々は、標準のTransformerブロックを移動式畳み込みブロックに置き換え、自己注意操作の前にさらに並べ替える。
概念的には単純なMOATネットワークは驚くほど有効であり、ImageNet-22KプリトレーニングでImageNet-1Kで89.1%の精度を実現している。
論文 参考訳(メタデータ) (2022-10-04T18:00:06Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - A Simple Approach to Image Tilt Correction with Self-Attention MobileNet
for Smartphones [4.989480853499916]
本稿では,局所領域を処理する代わりに,画像特徴間の長距離依存性をモデル化できる自己注意型MobileNetを提案する。
また,画像傾き検出のための新しいトレーニングパイプラインを提案する。
我々は,モバイルネットV3モデルと比較して,モバイルデバイス上での画像傾斜角を検出する技術について述べる。
論文 参考訳(メタデータ) (2021-10-31T03:41:46Z) - YOLO-ReT: Towards High Accuracy Real-time Object Detection on Edge GPUs [14.85882314822983]
ディープニューラルネットワーク(DNN)ベースのオブジェクト検出モデルをエッジデバイスにマップするには、通常、そのようなモデルを著しく圧縮する必要がある。
本稿では,マルチスケール機能インタラクションのためのエッジGPUフレンドリなモジュールを提案する。
また,様々なタスク間の翻訳情報の流れの変化にインスパイアされた,新たな学習バックボーンの導入を提案する。
論文 参考訳(メタデータ) (2021-10-26T14:02:59Z) - MobileDets: Searching for Object Detection Architectures for Mobile
Accelerators [61.30355783955777]
逆ボトルネック層は、モバイルデバイス上の最先端のオブジェクト検出モデルにおいて、主要なビルディングブロックとなっている。
通常の畳み込みは、アクセラレーターにおけるオブジェクト検出の遅延精度トレードオフを高める強力なコンポーネントである。
我々は、モバイルアクセラレーター全体で最先端の成果を得られるオブジェクト検出モデル、MobileDetsのファミリーを得る。
論文 参考訳(メタデータ) (2020-04-30T00:21:30Z) - FBNetV2: Differentiable Neural Architecture Search for Spatial and
Channel Dimensions [70.59851564292828]
微分可能なニューラルネットワーク探索(DNAS)は、最先端で効率的なニューラルネットワークの設計において大きな成功を収めている。
メモリと計算効率のよいDNAS変異体DMaskingNASを提案する。
このアルゴリズムは、検索スペースを従来のDNASよりも最大1014倍に拡張する。
論文 参考訳(メタデータ) (2020-04-12T08:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。