論文の概要: Dynamic Mobile-Former: Strengthening Dynamic Convolution with Attention
and Residual Connection in Kernel Space
- arxiv url: http://arxiv.org/abs/2304.07254v1
- Date: Thu, 13 Apr 2023 05:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 13:01:26.326864
- Title: Dynamic Mobile-Former: Strengthening Dynamic Convolution with Attention
and Residual Connection in Kernel Space
- Title(参考訳): Dynamic Mobile-Former:カーネル空間における注意と残留接続による動的畳み込みの強化
- Authors: Seokju Yun, Youngmin Ro
- Abstract要約: Dynamic Mobile-Formerは、効率的な演算子と調和させることで動的畳み込みの能力を最大化する。
PVT.A Transformer in Dynamic Mobile-Formerは、グローバルな機能をランダムに計算するだけである。
Dynamic MobileNetとTransformerのブリッジは、ローカル機能とグローバル機能の双方向統合を可能にする。
- 参考スコア(独自算出の注目度): 4.111899441919165
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce Dynamic Mobile-Former(DMF), maximizes the capabilities of
dynamic convolution by harmonizing it with efficient operators.Our Dynamic
MobileFormer effectively utilizes the advantages of Dynamic MobileNet
(MobileNet equipped with dynamic convolution) using global information from
light-weight attention.A Transformer in Dynamic Mobile-Former only requires a
few randomly initialized tokens to calculate global features, making it
computationally efficient.And a bridge between Dynamic MobileNet and
Transformer allows for bidirectional integration of local and global
features.We also simplify the optimization process of vanilla dynamic
convolution by splitting the convolution kernel into an input-agnostic kernel
and an input-dependent kernel.This allows for optimization in a wider kernel
space, resulting in enhanced capacity.By integrating lightweight attention and
enhanced dynamic convolution, our Dynamic Mobile-Former achieves not only high
efficiency, but also strong performance.We benchmark the Dynamic Mobile-Former
on a series of vision tasks, and showcase that it achieves impressive
performance on image classification, COCO detection, and instanace
segmentation.For example, our DMF hits the top-1 accuracy of 79.4% on
ImageNet-1K, much higher than PVT-Tiny by 4.3% with only 1/4
FLOPs.Additionally,our proposed DMF-S model performed well on challenging
vision datasets such as COCO, achieving a 39.0% mAP,which is 1% higher than
that of the Mobile-Former 508M model, despite using 3 GFLOPs less
computations.Code and models are available at https://github.com/ysj9909/DMF
- Abstract(参考訳): We introduce Dynamic Mobile-Former(DMF), maximizes the capabilities of dynamic convolution by harmonizing it with efficient operators.Our Dynamic MobileFormer effectively utilizes the advantages of Dynamic MobileNet (MobileNet equipped with dynamic convolution) using global information from light-weight attention.A Transformer in Dynamic Mobile-Former only requires a few randomly initialized tokens to calculate global features, making it computationally efficient.And a bridge between Dynamic MobileNet and Transformer allows for bidirectional integration of local and global features.We also simplify the optimization process of vanilla dynamic convolution by splitting the convolution kernel into an input-agnostic kernel and an input-dependent kernel.This allows for optimization in a wider kernel space, resulting in enhanced capacity.By integrating lightweight attention and enhanced dynamic convolution, our Dynamic Mobile-Former achieves not only high efficiency, but also strong performance.We benchmark the Dynamic Mobile-Former on a series of vision tasks, and showcase that it achieves impressive performance on image classification, COCO detection, and instanace segmentation.For example, our DMF hits the top-1 accuracy of 79.4% on ImageNet-1K, much higher than PVT-Tiny by 4.3% with only 1/4 FLOPs.Additionally,our proposed DMF-S model performed well on challenging vision datasets such as COCO, achieving a 39.0% mAP,which is 1% higher than that of the Mobile-Former 508M model, despite using 3 GFLOPs less computations.Code and models are available at https://github.com/ysj9909/DMF
関連論文リスト
- Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator
for Vision Applications [108.44482683870888]
Deformable Convolution v4 (DCNv4) は、広帯域の視覚アプリケーション向けに設計された、高効率で効率的な演算子である。
DCNv4は、前任のDCNv3の制限に対処し、2つの重要な拡張を加えた。
画像分類、インスタンスとセマンティックセグメンテーション、特に画像生成など、様々なタスクで例外的なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-01-11T14:53:24Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Rethinking Mobile Block for Efficient Attention-based Models [60.0312591342016]
本稿では、パラメータ、FLOP、性能をトレードオフしながら、高密度予測のための現代的で効率的で軽量なモデルを開発することに焦点を当てる。
Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。
我々はCNNベースのIRBをアテンションベースモデルに拡張し、軽量モデル設計のためのMMB(One-Residual Meta Mobile Block)を抽象化する。
論文 参考訳(メタデータ) (2023-01-03T15:11:41Z) - Adaptive Dynamic Filtering Network for Image Denoising [8.61083713580388]
画像デノーミングネットワークでは、機能スケーリングは受動的フィールドサイズを拡大し、計算コストを削減するために広く利用されている。
本稿では、動的畳み込みを用いて、高周波およびマルチスケール特徴の学習を改善することを提案する。
我々は提案するDCBとAMDNetというMDCBを併用した効率的なデノベーションネットワークを構築した。
論文 参考訳(メタデータ) (2022-11-22T06:54:27Z) - PAD-Net: An Efficient Framework for Dynamic Networks [72.85480289152719]
動的ネットワークを実装する際の一般的な実践は、与えられた静的レイヤを完全な動的レイヤに変換することである。
我々は、冗長な動的パラメータを静的なパラメータに変換するために、部分的に動的ネットワーク、すなわちPAD-Netを提案する。
提案手法は,2つの典型的な動的アーキテクチャを用いた大規模実験によって包括的に支持されている。
論文 参考訳(メタデータ) (2022-11-10T12:42:43Z) - Omni-Dimensional Dynamic Convolution [25.78940854339179]
各畳み込み層で単一の静的畳み込みカーネルを学習することは、現代の畳み込みニューラルネットワーク(CNN)の共通の訓練パラダイムである。
動的畳み込みの最近の研究は、入力依存の注意を重み付けした$n$の畳み込みカーネルの線形結合を学習することで、軽量CNNの精度を大幅に向上させることができることを示している。
より一般化されているがエレガントな動的畳み込み設計であるOmni-dimensional Dynamic Convolution (ODConv)を提案する。
論文 参考訳(メタデータ) (2022-09-16T14:05:38Z) - Tutel: Adaptive Mixture-of-Experts at Scale [20.036168971435306]
深層学習モデルを数兆以上のパラメータに拡張するために、計算コストを固定化するために、疎ゲート混合(MoE)が広く採用されている。
我々は、動的適応並列性とパイプライン化を備えたMoEのための高度にスケーラブルなスタック設計と実装であるFlexを紹介します。
我々の評価では、Flexは、最先端のコンピュータビジョンアーキテクチャであるSwin Transformer V2上に構築された実世界のMoEベースのモデルSwinV2-MoEを効率的に効率的に実行している。
論文 参考訳(メタデータ) (2022-06-07T15:20:20Z) - SD-Conv: Towards the Parameter-Efficiency of Dynamic Convolution [16.56592303409295]
動的畳み込みは、無視可能なFLOPの増加による効率の良いCNNの性能向上を実現する。
我々はこれら2つのパスを自然に統合する新しいフレームワーク textbfSparse Dynamic Convolution (textscSD-Conv) を提案する。
論文 参考訳(メタデータ) (2022-04-05T14:03:54Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Revisiting Dynamic Convolution via Matrix Decomposition [81.89967403872147]
チャネル群に対する動的注意を置き換える動的チャネル融合を提案する。
本手法は訓練が容易で,精度を犠牲にすることなくパラメータを著しく削減する。
論文 参考訳(メタデータ) (2021-03-15T23:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。