論文の概要: EMOv2: Pushing 5M Vision Model Frontier
- arxiv url: http://arxiv.org/abs/2412.06674v1
- Date: Mon, 09 Dec 2024 17:12:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:21.535992
- Title: EMOv2: Pushing 5M Vision Model Frontier
- Title(参考訳): EMOv2: 5Mビジョンモデルフロンティアを推進
- Authors: Jiangning Zhang, Teng Hu, Haoyang He, Zhucun Xue, Yabiao Wang, Chengjie Wang, Yong Liu, Xiangtai Li, Dacheng Tao,
- Abstract要約: 様々な下流タスクにおいて,5M級軽量モデルの新たなフロンティアを構築した。
我々の研究は、Transformerにおける効率的なIRBと実用的なコンポーネントの軽量なインフラを再考する。
4G/5G帯でモデルをダウンロードする場合のモバイルユーザの遅延を考慮し,5M程度の軽量モデルの性能上限について検討する。
- 参考スコア(独自算出の注目度): 92.21687467702972
- License:
- Abstract: This work focuses on developing parameter-efficient and lightweight models for dense predictions while trading off parameters, FLOPs, and performance. Our goal is to set up the new frontier of the 5M magnitude lightweight model on various downstream tasks. Inverted Residual Block (IRB) serves as the infrastructure for lightweight CNNs, but no counterparts have been recognized by attention-based design. Our work rethinks the lightweight infrastructure of efficient IRB and practical components in Transformer from a unified perspective, extending CNN-based IRB to attention-based models and abstracting a one-residual Meta Mobile Block (MMBlock) for lightweight model design. Following neat but effective design criterion, we deduce a modern Improved Inverted Residual Mobile Block (i2RMB) and improve a hierarchical Efficient MOdel (EMOv2) with no elaborate complex structures. Considering the imperceptible latency for mobile users when downloading models under 4G/5G bandwidth and ensuring model performance, we investigate the performance upper limit of lightweight models with a magnitude of 5M. Extensive experiments on various vision recognition, dense prediction, and image generation tasks demonstrate the superiority of our EMOv2 over state-of-the-art methods, e.g., EMOv2-1M/2M/5M achieve 72.3, 75.8, and 79.4 Top-1 that surpass equal-order CNN-/Attention-based models significantly. At the same time, EMOv2-5M equipped RetinaNet achieves 41.5 mAP for object detection tasks that surpasses the previous EMO-5M by +2.6. When employing the more robust training recipe, our EMOv2-5M eventually achieves 82.9 Top-1 accuracy, which elevates the performance of 5M magnitude models to a new level. Code is available at https://github.com/zhangzjn/EMOv2.
- Abstract(参考訳): この研究は、パラメータ、FLOP、パフォーマンスをトレードオフしながら、高密度な予測のためのパラメータ効率で軽量なモデルを開発することに焦点を当てている。
私たちのゴールは、様々な下流タスクで500Mの軽量モデルの新たなフロンティアを構築することです。
Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注意に基づく設計では認識されていない。
我々の研究は、効率的なIRBとTransformerの実用的なコンポーネントの軽量なインフラを再考し、CNNベースのIRBを注目ベースモデルに拡張し、軽量モデル設計のための一次元メタモバイルブロック(MMBlock)を抽象化する。
設計基準が整った上で, 改良された逆残差移動ブロック (i2RMB) を推定し, 複雑な構造を伴わない階層的効率的なモデル (EMOv2) を改良する。
4G/5G帯のモデルダウンロードとモデル性能の確保において,モバイルユーザにとって許容できない遅延を考慮し,最大5Mの軽量モデルの性能上限について検討する。
例えば、EMOv2-1M/2M/5Mは72.3、75.8、79.4Top-1を達成し、CNN/Attention-basedモデルを大幅に上回る。
EMOv2-5M 搭載の RetinaNet は、以前の EMO-5M を +2.6 で上回るオブジェクト検出タスクに対して 41.5 mAP を達成する。
より堅牢なトレーニングレシピを採用する場合、EMOv2-5Mは最終的に82.9のTop-1精度を達成する。
コードはhttps://github.com/zhangzjn/EMOv2.comで入手できる。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - Efficient Modulation for Vision Networks [122.1051910402034]
我々は、効率的なビジョンネットワークのための新しい設計である効率的な変調を提案する。
変調機構が特に効率的なネットワークに適していることを実証する。
私たちのネットワークは、精度と効率のトレードオフをうまく達成できます。
論文 参考訳(メタデータ) (2024-03-29T03:48:35Z) - MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases [46.997172696192195]
本稿では、クラウドコストの増大とレイテンシの懸念により、モバイルデバイス上での効率的な大規模言語モデル(LLM)の必要性に対処する。
モバイルデプロイメントの実践的な選択として,10億未満のパラメータで高品質なLLMを設計することに重点を置いています。
論文 参考訳(メタデータ) (2024-02-22T18:58:55Z) - From Blurry to Brilliant Detection: YOLOv5-Based Aerial Object Detection
with Super Resolution [4.107182710549721]
超解像度と適応型軽量YOLOv5アーキテクチャを組み合わせた革新的なアプローチを提案する。
実験により,小型で密集した物体の検出において,モデルの性能が優れていることを示した。
論文 参考訳(メタデータ) (2024-01-26T05:50:58Z) - Mobile V-MoEs: Scaling Down Vision Transformers via Sparse
Mixture-of-Experts [55.282613372420805]
我々は、資源制約された視覚アプリケーションにとってより魅力的な視覚変換器(ViT)をスケールダウンするために、スパースMOE(sparse MoEs)の使用について検討する。
我々は,個々のパッチではなく画像全体を専門家にルーティングする,シンプルでモバイルフレンドリーなMoE設計を提案する。
V-MoEs(V-MoEs)は高密度VTよりも性能と効率のトレードオフが優れていることを実証的に示す。
論文 参考訳(メタデータ) (2023-09-08T14:24:10Z) - Dynamic Mobile-Former: Strengthening Dynamic Convolution with Attention
and Residual Connection in Kernel Space [4.111899441919165]
Dynamic Mobile-Formerは、効率的な演算子と調和させることで動的畳み込みの能力を最大化する。
PVT.A Transformer in Dynamic Mobile-Formerは、グローバルな機能をランダムに計算するだけである。
Dynamic MobileNetとTransformerのブリッジは、ローカル機能とグローバル機能の双方向統合を可能にする。
論文 参考訳(メタデータ) (2023-04-13T05:22:24Z) - Rethinking Mobile Block for Efficient Attention-based Models [60.0312591342016]
本稿では、パラメータ、FLOP、性能をトレードオフしながら、高密度予測のための現代的で効率的で軽量なモデルを開発することに焦点を当てる。
Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。
我々はCNNベースのIRBをアテンションベースモデルに拡張し、軽量モデル設計のためのMMB(One-Residual Meta Mobile Block)を抽象化する。
論文 参考訳(メタデータ) (2023-01-03T15:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。