Fugu-MT 論文翻訳(概要): Rethinking Mobile Block for Efficient Neural Models

論文の概要: Rethinking Mobile Block for Efficient Neural Models

arxiv url: http://arxiv.org/abs/2301.01146v1
Date: Tue, 3 Jan 2023 15:11:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-04 14:38:41.522326
Title: Rethinking Mobile Block for Efficient Neural Models
Title（参考訳）: 効率的なニューラルモデルのための移動ブロック再考
Authors: Jiangning Zhang, Xiangtai Li, Jian Li, Liang Liu, Zhucun Xue, Boshen Zhang, Zhengkai Jiang, Tianxin Huang, Yabiao Wang, and Chengjie Wang
Abstract要約: この研究は、MobileNetv2における効率的な逆Residual Blockと、ViTにおける効果的なTransformerの本質的な統一を再考する。この現象に触発され、モバイルアプリケーションのためのシンプルな、しかし効率的な近代的textbfInverted textbfResidual textbfMobile textbfBlock (iRMB) を導出する。
参考スコア（独自算出の注目度）: 31.09956206054009
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper focuses on designing efficient models with low parameters and FLOPs for dense predictions. Even though CNN-based lightweight methods have achieved stunning results after years of research, trading-off model accuracy and constrained resources still need further improvements. This work rethinks the essential unity of efficient Inverted Residual Block in MobileNetv2 and effective Transformer in ViT, inductively abstracting a general concept of Meta-Mobile Block, and we argue that the specific instantiation is very important to model performance though sharing the same framework. Motivated by this phenomenon, we deduce a simple yet efficient modern \textbf{I}nverted \textbf{R}esidual \textbf{M}obile \textbf{B}lock (iRMB) for mobile applications, which absorbs CNN-like efficiency to model short-distance dependency and Transformer-like dynamic modeling capability to learn long-distance interactions. Furthermore, we design a ResNet-like 4-phase \textbf{E}fficient \textbf{MO}del (EMO) based only on a series of iRMBs for dense applications. Massive experiments on ImageNet-1K, COCO2017, and ADE20K benchmarks demonstrate the superiority of our EMO over state-of-the-art methods, \eg, our EMO-1M/2M/5M achieve 71.5, 75.1, and 78.4 Top-1 that surpass \textbf{SoTA} CNN-/Transformer-based models, while trading-off the model accuracy and efficiency well.
Abstract（参考訳）: 本稿では,低パラメータと高密度予測のためのFLOPを用いた効率的なモデルの設計に着目する。 CNNベースの軽量手法は、長年の研究を経て素晴らしい成果を上げてきたが、トレードオフモデルの精度と制約のあるリソースは依然としてさらなる改善が必要である。この研究は、MobileNetv2における効率的な逆Residual BlockとViTにおける効果的なTransformerの本質的な統一を再考し、Meta-Mobile Blockの一般的な概念を誘導的に抽象化し、同じフレームワークを共有しながらパフォーマンスをモデル化する上で、特定のインスタンス化が非常に重要であると論じる。この現象に触発されて、モバイルアプリケーションのための単純で効率的な近代的 \textbf{I}nverted \textbf{R}esidual \textbf{M}obile \textbf{B}lock (iRMB) を導出する。さらに,高密度アプリケーション用の一連の iRMB のみをベースとして,ResNet のような 4 相 \textbf{E}fficient \textbf{MO}del (EMO) を設計する。 ImageNet-1K, COCO2017, ADE20Kベンチマークによる大規模な実験では、EMOが最先端の手法よりも優れていることが示され、EMO-1M/2M/5Mは71.5, 75.1, 78.4Top-1を達成し、これは \textbf{SoTA} CNN-/Transformer-basedモデルを上回っている。

関連論文リスト

SpaRTAN: Spatial Reinforcement Token-based Aggregation Network for Visual Recognition [15.125734989910429]
SpaRTANは、空間的およびチャネル的な情報処理を強化する軽量なアーキテクチャ設計である。 SpaRTANは、競争性能を維持しながら、顕著な効率を達成する。
論文参考訳（メタデータ） (2025-07-15T05:34:56Z)
Simple is what you need for efficient and accurate medical image segmentation [7.2109224546543675]
本稿では,スケーラブルな超軽量医用画像分割モデルSimpleUNetを提案する。記録破りの16KBパラメータ設定により、SimpleUNetはLBUNetや他の軽量ベンチマークを上回っている。 0.67MBの派生型は、より優れた効率(8.60 GFLOPs)と精度を実現し、マルチセンターの乳房病変のデータセットの平均DSC/IoUは85.76%/75.60%に達した。
論文参考訳（メタデータ） (2025-06-16T12:31:48Z)
ECMNet:Lightweight Semantic Segmentation with Efficient CNN-Mamba Network [0.0]
ECMNetはCNNとMambaをカプセルベースのフレームワークで巧みに組み合わせて、補完的な弱点に対処する。提案されたモデルは精度と効率のバランスに優れており、Cityscapesでは70.6% mIoU、CamVidテストデータセットでは73.6% mIoUを達成している。
論文参考訳（メタデータ） (2025-06-10T09:44:23Z)
CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference [33.871080938643566]
大規模言語モデル(LLM)はモデルパラメータのスケーリングによって素晴らしいパフォーマンスを達成するが、これはかなりの推論オーバーヘッドを伴う。我々は,高密度モデルからMoEモデルを効率的に彫る新しいフレームワークであるCMoEを提案する。 CMoEは、効率的なエキスパートグループ化と軽量適応によって、優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-02-06T14:05:30Z)
Building Efficient Lightweight CNN Models [0.0]
畳み込みニューラルネットワーク(CNN)は、その堅牢な特徴抽出能力のため、画像分類タスクにおいて重要である。本稿では,競争精度を維持しつつ軽量CNNを構築する手法を提案する。提案モデルは手書き文字MNISTで99%,ファッションMNISTで89%,パラメータは14,862,モデルサイズは0.17MBであった。
論文参考訳（メタデータ） (2025-01-26T14:39:01Z)
EMOv2: Pushing 5M Vision Model Frontier [92.21687467702972]
様々な下流タスクにおいて,5M級軽量モデルの新たなフロンティアを構築した。我々の研究は、Transformerにおける効率的なIRBと実用的なコンポーネントの軽量なインフラを再考する。 4G/5G帯でモデルをダウンロードする場合のモバイルユーザの遅延を考慮し,5M程度の軽量モデルの性能上限について検討する。
論文参考訳（メタデータ） (2024-12-09T17:12:22Z)
LeYOLO, New Scalable and Efficient CNN Architecture for Object Detection [0.0]
FLOPに基づく効率的な物体検出のためのニューラルネットワークアーキテクチャの設計選択に着目する。そこで本研究では,YOLOモデルの有効性を高めるために,いくつかの最適化手法を提案する。本稿では、オブジェクト検出のための新しいスケーリングパラダイムと、LeYOLOと呼ばれるYOLO中心のモデルに寄与する。
論文参考訳（メタデータ） (2024-06-20T12:08:24Z)
Efficient Modulation for Vision Networks [122.1051910402034]
我々は、効率的なビジョンネットワークのための新しい設計である効率的な変調を提案する。変調機構が特に効率的なネットワークに適していることを実証する。私たちのネットワークは、精度と効率のトレードオフをうまく達成できます。
論文参考訳（メタデータ） (2024-03-29T03:48:35Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
CODEBench: A Neural Architecture and Hardware Accelerator Co-Design Framework [4.5259990830344075]
この研究は、CODEBenchと呼ばれる新しいニューラルアーキテクチャとハードウェアアクセラレーターの共同設計フレームワークを提案する。 CNNBenchとAccelBenchという2つの新しいベンチマークサブフレームワークで構成されており、畳み込みニューラルネットワーク(CNN)とCNNアクセラレーターの拡張設計空間を探索している。
論文参考訳（メタデータ） (2022-12-07T21:38:03Z)
MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision Models [40.40784209977589]
本稿では、モビレ畳み込み(すなわち逆残差ブロック)とアテンションの上に構築されるニューラルネットワークのファミリーであるMOATについて述べる。我々は、標準のTransformerブロックを移動式畳み込みブロックに置き換え、自己注意操作の前にさらに並べ替える。概念的には単純なMOATネットワークは驚くほど有効であり、ImageNet-22KプリトレーニングでImageNet-1Kで89.1%の精度を実現している。
論文参考訳（メタデータ） (2022-10-04T18:00:06Z)
Faster Attention Is What You Need: A Fast Self-Attention Neural Network Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文参考訳（メタデータ） (2022-08-15T02:47:33Z)
A Two-Stage Efficient 3-D CNN Framework for EEG Based Emotion Recognition [3.147603836269998]
フレームワークは2つのステージで構成されており、最初の段階はEEGNetと呼ばれる効率的なモデルの構築である。第2段階では、これらのモデルをバイナライズしてさらに圧縮し、エッジデバイスに容易にデプロイする。提案したバイナライズされたEEGNetモデルは、それぞれ0.11Mbits、0.28Mbits、0.46Mbitsのストレージコストで81%、95%、99%の精度を達成する。
論文参考訳（メタデータ） (2022-07-26T05:33:08Z)
EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。 1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文参考訳（メタデータ） (2022-06-21T17:59:56Z)
Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文参考訳（メタデータ） (2021-01-27T18:55:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。