論文の概要: An Improved One millisecond Mobile Backbone
- arxiv url: http://arxiv.org/abs/2206.04040v1
- Date: Wed, 8 Jun 2022 17:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 13:52:15.173933
- Title: An Improved One millisecond Mobile Backbone
- Title(参考訳): 改良された1ミリ秒モバイルバックボーン
- Authors: Pavan Kumar Anasosalu Vasu and James Gabriel and Jeff Zhu and Oncel
Tuzel and Anurag Ranjan
- Abstract要約: モバイルデバイス上に複数のモバイルフレンドリーなネットワークを配置することで、さまざまなメトリクスを分析します。
我々はMobileOneが,モバイル上での処理速度を何倍にも向上しつつ,効率的なアーキテクチャ内での最先端のパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 14.041480018494394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient neural network backbones for mobile devices are often optimized for
metrics such as FLOPs or parameter count. However, these metrics may not
correlate well with latency of the network when deployed on a mobile device.
Therefore, we perform extensive analysis of different metrics by deploying
several mobile-friendly networks on a mobile device. We identify and analyze
architectural and optimization bottlenecks in recent efficient neural networks
and provide ways to mitigate these bottlenecks. To this end, we design an
efficient backbone MobileOne, with variants achieving an inference time under 1
ms on an iPhone12 with 75.9% top-1 accuracy on ImageNet. We show that MobileOne
achieves state-of-the-art performance within the efficient architectures while
being many times faster on mobile. Our best model obtains similar performance
on ImageNet as MobileFormer while being 38x faster. Our model obtains 2.3%
better top-1 accuracy on ImageNet than EfficientNet at similar latency.
Furthermore, we show that our model generalizes to multiple tasks - image
classification, object detection, and semantic segmentation with significant
improvements in latency and accuracy as compared to existing efficient
architectures when deployed on a mobile device.
- Abstract(参考訳): モバイルデバイス用の効率的なニューラルネットワークバックボーンは、FLOPやパラメータカウントなどのメトリクスに最適化されることが多い。
しかし、これらのメトリクスは、モバイルデバイスにデプロイされるネットワークのレイテンシとよく相関しないかもしれない。
そこで我々は,複数のモバイルフレンドリなネットワークをモバイルデバイス上に配置することで,さまざまな指標を広範囲に分析する。
我々は、最近の効率的なニューラルネットワークにおけるアーキテクチャおよび最適化ボトルネックを特定し、分析し、これらのボトルネックを緩和する方法を提供する。
この目的のために、iPhone12上で1ミリ秒未満の推論時間を実現し、ImageNet上で75.9%の精度で、効率的なバックボーンMobileOneを設計する。
我々はmobileoneが効率の良いアーキテクチャで最先端のパフォーマンスを達成し、モバイルで何倍も速くなることを示す。
我々の最良のモデルは、ImageNetとMobileFormerで38倍高速なパフォーマンスを得る。
我々のモデルは、同様のレイテンシで、ImageNetでEfficientNetよりも2.3%優れたトップ1の精度を得る。
さらに,本モデルは,モバイル機器にデプロイする際の既存の効率的なアーキテクチャと比較して,レイテンシと精度が大幅に向上し,画像分類,オブジェクト検出,意味セグメンテーションといった複数のタスクに一般化することを示す。
関連論文リスト
- SwiftFormer: Efficient Additive Attention for Transformer-based
Real-time Mobile Vision Applications [98.90623605283564]
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。
我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。
私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
論文 参考訳(メタデータ) (2023-03-27T17:59:58Z) - FastViT: A Fast Hybrid Vision Transformer using Structural
Reparameterization [14.707312504365376]
我々は、最先端のレイテンシ-精度トレードオフを得るハイブリッドビジョントランスフォーマーアーキテクチャであるFastViTを紹介する。
我々は,当社のモデルがCMTの3.5倍,EfficientNetの4.9倍,モバイルデバイスのConvNeXtの1.9倍で,ImageNetデータセットと同じ精度であることを示す。
論文 参考訳(メタデータ) (2023-03-24T17:58:32Z) - Rethinking Vision Transformers for MobileNet Size and Speed [58.01406896628446]
本稿では,低レイテンシでパラメータ効率の高い新しいスーパーネットを提案する。
また,変圧器モデルに対して,よりきめ細かな共同探索戦略を導入する。
この研究は、MobileNetレベルのサイズと速度であっても、適切に設計され、最適化されたビジョントランスフォーマーがハイパフォーマンスを実現することを実証している。
論文 参考訳(メタデータ) (2022-12-15T18:59:12Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Separable Self-attention for Mobile Vision Transformers [34.32399598443582]
本稿では,線形複雑度を持つ分離型自己注意法,すなわち$O(k)$を提案する。
改良されたモデルであるMobileViTv2は、ImageNetオブジェクト分類やMS-COCOオブジェクト検出など、いくつかのモバイルビジョンタスクの最先端技術である。
論文 参考訳(メタデータ) (2022-06-06T15:31:35Z) - EfficientFormer: Vision Transformers at MobileNet Speed [43.93223983817965]
Vision Transformers (ViT) はコンピュータビジョンタスクの急速な進歩を示し、様々なベンチマークで有望な結果を得た。
ViTベースのモデルは一般的に、軽量な畳み込みネットワークの倍遅い。
近年,ネットワークアーキテクチャ検索やMobileNetブロックによるハイブリッド設計によるViTの複雑さの低減が試みられているが,推論速度はまだ不十分である。
論文 参考訳(メタデータ) (2022-06-02T17:51:03Z) - TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation [111.8342799044698]
textbfToken textbfPyramid Vision Transtextbfformer (textbfTopFormer)というモバイルフレンドリーなアーキテクチャを提案する。
提案された textbfTopFormer は Tokens を様々なスケールから入力として取り出して,スケール対応のセマンティック機能を生成し,対応するトークンに注入して表現を拡大する。
ADE20Kデータセットでは、TopFormerはMobileNetV3よりもmIoUの精度が5%高く、ARMベースのモバイルデバイスではレイテンシが低い。
論文 参考訳(メタデータ) (2022-04-12T04:51:42Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - MobileDets: Searching for Object Detection Architectures for Mobile
Accelerators [61.30355783955777]
逆ボトルネック層は、モバイルデバイス上の最先端のオブジェクト検出モデルにおいて、主要なビルディングブロックとなっている。
通常の畳み込みは、アクセラレーターにおけるオブジェクト検出の遅延精度トレードオフを高める強力なコンポーネントである。
我々は、モバイルアクセラレーター全体で最先端の成果を得られるオブジェクト検出モデル、MobileDetsのファミリーを得る。
論文 参考訳(メタデータ) (2020-04-30T00:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。