論文の概要: Rethinking Mobile Block for Efficient Neural Models
- arxiv url: http://arxiv.org/abs/2301.01146v1
- Date: Tue, 3 Jan 2023 15:11:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 14:38:41.522326
- Title: Rethinking Mobile Block for Efficient Neural Models
- Title(参考訳): 効率的なニューラルモデルのための移動ブロック再考
- Authors: Jiangning Zhang, Xiangtai Li, Jian Li, Liang Liu, Zhucun Xue, Boshen
Zhang, Zhengkai Jiang, Tianxin Huang, Yabiao Wang, and Chengjie Wang
- Abstract要約: この研究は、MobileNetv2における効率的な逆Residual Blockと、ViTにおける効果的なTransformerの本質的な統一を再考する。
この現象に触発され、モバイルアプリケーションのためのシンプルな、しかし効率的な近代的textbfInverted textbfResidual textbfMobile textbfBlock (iRMB) を導出する。
- 参考スコア(独自算出の注目度): 31.09956206054009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on designing efficient models with low parameters and
FLOPs for dense predictions. Even though CNN-based lightweight methods have
achieved stunning results after years of research, trading-off model accuracy
and constrained resources still need further improvements. This work rethinks
the essential unity of efficient Inverted Residual Block in MobileNetv2 and
effective Transformer in ViT, inductively abstracting a general concept of
Meta-Mobile Block, and we argue that the specific instantiation is very
important to model performance though sharing the same framework. Motivated by
this phenomenon, we deduce a simple yet efficient modern \textbf{I}nverted
\textbf{R}esidual \textbf{M}obile \textbf{B}lock (iRMB) for mobile
applications, which absorbs CNN-like efficiency to model short-distance
dependency and Transformer-like dynamic modeling capability to learn
long-distance interactions. Furthermore, we design a ResNet-like 4-phase
\textbf{E}fficient \textbf{MO}del (EMO) based only on a series of iRMBs for
dense applications. Massive experiments on ImageNet-1K, COCO2017, and ADE20K
benchmarks demonstrate the superiority of our EMO over state-of-the-art
methods, \eg, our EMO-1M/2M/5M achieve 71.5, 75.1, and 78.4 Top-1 that surpass
\textbf{SoTA} CNN-/Transformer-based models, while trading-off the model
accuracy and efficiency well.
- Abstract(参考訳): 本稿では,低パラメータと高密度予測のためのFLOPを用いた効率的なモデルの設計に着目する。
CNNベースの軽量手法は、長年の研究を経て素晴らしい成果を上げてきたが、トレードオフモデルの精度と制約のあるリソースは依然としてさらなる改善が必要である。
この研究は、MobileNetv2における効率的な逆Residual BlockとViTにおける効果的なTransformerの本質的な統一を再考し、Meta-Mobile Blockの一般的な概念を誘導的に抽象化し、同じフレームワークを共有しながらパフォーマンスをモデル化する上で、特定のインスタンス化が非常に重要であると論じる。
この現象に触発されて、モバイルアプリケーションのための単純で効率的な近代的 \textbf{I}nverted \textbf{R}esidual \textbf{M}obile \textbf{B}lock (iRMB) を導出する。
さらに,高密度アプリケーション用の一連の iRMB のみをベースとして,ResNet のような 4 相 \textbf{E}fficient \textbf{MO}del (EMO) を設計する。
ImageNet-1K, COCO2017, ADE20Kベンチマークによる大規模な実験では、EMOが最先端の手法よりも優れていることが示され、EMO-1M/2M/5Mは71.5, 75.1, 78.4Top-1を達成し、これは \textbf{SoTA} CNN-/Transformer-basedモデルを上回っている。
関連論文リスト
- CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference [33.871080938643566]
大規模言語モデル(LLM)はモデルパラメータのスケーリングによって素晴らしいパフォーマンスを達成するが、これはかなりの推論オーバーヘッドを伴う。
我々は,高密度モデルからMoEモデルを効率的に彫る新しいフレームワークであるCMoEを提案する。
CMoEは、効率的なエキスパートグループ化と軽量適応によって、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-06T14:05:30Z) - Building Efficient Lightweight CNN Models [0.0]
畳み込みニューラルネットワーク(CNN)は、その堅牢な特徴抽出能力のため、画像分類タスクにおいて重要である。
本稿では,競争精度を維持しつつ軽量CNNを構築する手法を提案する。
提案モデルは手書き文字MNISTで99%,ファッションMNISTで89%,パラメータは14,862,モデルサイズは0.17MBであった。
論文 参考訳(メタデータ) (2025-01-26T14:39:01Z) - EMOv2: Pushing 5M Vision Model Frontier [92.21687467702972]
様々な下流タスクにおいて,5M級軽量モデルの新たなフロンティアを構築した。
我々の研究は、Transformerにおける効率的なIRBと実用的なコンポーネントの軽量なインフラを再考する。
4G/5G帯でモデルをダウンロードする場合のモバイルユーザの遅延を考慮し,5M程度の軽量モデルの性能上限について検討する。
論文 参考訳(メタデータ) (2024-12-09T17:12:22Z) - LeYOLO, New Scalable and Efficient CNN Architecture for Object Detection [0.0]
FLOPに基づく効率的な物体検出のためのニューラルネットワークアーキテクチャの設計選択に着目する。
そこで本研究では,YOLOモデルの有効性を高めるために,いくつかの最適化手法を提案する。
本稿では、オブジェクト検出のための新しいスケーリングパラダイムと、LeYOLOと呼ばれるYOLO中心のモデルに寄与する。
論文 参考訳(メタデータ) (2024-06-20T12:08:24Z) - Efficient Modulation for Vision Networks [122.1051910402034]
我々は、効率的なビジョンネットワークのための新しい設計である効率的な変調を提案する。
変調機構が特に効率的なネットワークに適していることを実証する。
私たちのネットワークは、精度と効率のトレードオフをうまく達成できます。
論文 参考訳(メタデータ) (2024-03-29T03:48:35Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Faster Attention Is What You Need: A Fast Self-Attention Neural Network
Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向
結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。
これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文 参考訳(メタデータ) (2022-08-15T02:47:33Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。