論文の概要: Rethinking Mobile Block for Efficient Neural Models
- arxiv url: http://arxiv.org/abs/2301.01146v1
- Date: Tue, 3 Jan 2023 15:11:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 14:38:41.522326
- Title: Rethinking Mobile Block for Efficient Neural Models
- Title(参考訳): 効率的なニューラルモデルのための移動ブロック再考
- Authors: Jiangning Zhang, Xiangtai Li, Jian Li, Liang Liu, Zhucun Xue, Boshen
Zhang, Zhengkai Jiang, Tianxin Huang, Yabiao Wang, and Chengjie Wang
- Abstract要約: この研究は、MobileNetv2における効率的な逆Residual Blockと、ViTにおける効果的なTransformerの本質的な統一を再考する。
この現象に触発され、モバイルアプリケーションのためのシンプルな、しかし効率的な近代的textbfInverted textbfResidual textbfMobile textbfBlock (iRMB) を導出する。
- 参考スコア(独自算出の注目度): 31.09956206054009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on designing efficient models with low parameters and
FLOPs for dense predictions. Even though CNN-based lightweight methods have
achieved stunning results after years of research, trading-off model accuracy
and constrained resources still need further improvements. This work rethinks
the essential unity of efficient Inverted Residual Block in MobileNetv2 and
effective Transformer in ViT, inductively abstracting a general concept of
Meta-Mobile Block, and we argue that the specific instantiation is very
important to model performance though sharing the same framework. Motivated by
this phenomenon, we deduce a simple yet efficient modern \textbf{I}nverted
\textbf{R}esidual \textbf{M}obile \textbf{B}lock (iRMB) for mobile
applications, which absorbs CNN-like efficiency to model short-distance
dependency and Transformer-like dynamic modeling capability to learn
long-distance interactions. Furthermore, we design a ResNet-like 4-phase
\textbf{E}fficient \textbf{MO}del (EMO) based only on a series of iRMBs for
dense applications. Massive experiments on ImageNet-1K, COCO2017, and ADE20K
benchmarks demonstrate the superiority of our EMO over state-of-the-art
methods, \eg, our EMO-1M/2M/5M achieve 71.5, 75.1, and 78.4 Top-1 that surpass
\textbf{SoTA} CNN-/Transformer-based models, while trading-off the model
accuracy and efficiency well.
- Abstract(参考訳): 本稿では,低パラメータと高密度予測のためのFLOPを用いた効率的なモデルの設計に着目する。
CNNベースの軽量手法は、長年の研究を経て素晴らしい成果を上げてきたが、トレードオフモデルの精度と制約のあるリソースは依然としてさらなる改善が必要である。
この研究は、MobileNetv2における効率的な逆Residual BlockとViTにおける効果的なTransformerの本質的な統一を再考し、Meta-Mobile Blockの一般的な概念を誘導的に抽象化し、同じフレームワークを共有しながらパフォーマンスをモデル化する上で、特定のインスタンス化が非常に重要であると論じる。
この現象に触発されて、モバイルアプリケーションのための単純で効率的な近代的 \textbf{I}nverted \textbf{R}esidual \textbf{M}obile \textbf{B}lock (iRMB) を導出する。
さらに,高密度アプリケーション用の一連の iRMB のみをベースとして,ResNet のような 4 相 \textbf{E}fficient \textbf{MO}del (EMO) を設計する。
ImageNet-1K, COCO2017, ADE20Kベンチマークによる大規模な実験では、EMOが最先端の手法よりも優れていることが示され、EMO-1M/2M/5Mは71.5, 75.1, 78.4Top-1を達成し、これは \textbf{SoTA} CNN-/Transformer-basedモデルを上回っている。
関連論文リスト
- A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - CODEBench: A Neural Architecture and Hardware Accelerator Co-Design
Framework [4.5259990830344075]
この研究は、CODEBenchと呼ばれる新しいニューラルアーキテクチャとハードウェアアクセラレーターの共同設計フレームワークを提案する。
CNNBenchとAccelBenchという2つの新しいベンチマークサブフレームワークで構成されており、畳み込みニューラルネットワーク(CNN)とCNNアクセラレーターの拡張設計空間を探索している。
論文 参考訳(メタデータ) (2022-12-07T21:38:03Z) - Lite-Mono: A Lightweight CNN and Transformer Architecture for
Self-Supervised Monocular Depth Estimation [9.967643080731683]
CNNとトランスフォーマーの効率的な組み合わせについて検討し,Lite-Monoのハイブリッドアーキテクチャを設計する。
完全なモデルはMonodepth2よりも精度が高く、トレーニング可能なパラメータが約80%少ない。
論文 参考訳(メタデータ) (2022-11-23T18:43:41Z) - MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision
Models [40.40784209977589]
本稿では、モビレ畳み込み(すなわち逆残差ブロック)とアテンションの上に構築されるニューラルネットワークのファミリーであるMOATについて述べる。
我々は、標準のTransformerブロックを移動式畳み込みブロックに置き換え、自己注意操作の前にさらに並べ替える。
概念的には単純なMOATネットワークは驚くほど有効であり、ImageNet-22KプリトレーニングでImageNet-1Kで89.1%の精度を実現している。
論文 参考訳(メタデータ) (2022-10-04T18:00:06Z) - Faster Attention Is What You Need: A Fast Self-Attention Neural Network
Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向
結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。
これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文 参考訳(メタデータ) (2022-08-15T02:47:33Z) - A Two-Stage Efficient 3-D CNN Framework for EEG Based Emotion
Recognition [3.147603836269998]
フレームワークは2つのステージで構成されており、最初の段階はEEGNetと呼ばれる効率的なモデルの構築である。
第2段階では、これらのモデルをバイナライズしてさらに圧縮し、エッジデバイスに容易にデプロイする。
提案したバイナライズされたEEGNetモデルは、それぞれ0.11Mbits、0.28Mbits、0.46Mbitsのストレージコストで81%、95%、99%の精度を達成する。
論文 参考訳(メタデータ) (2022-07-26T05:33:08Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文 参考訳(メタデータ) (2021-01-27T18:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。