論文の概要: CycleMLP: A MLP-like Architecture for Dense Prediction
- arxiv url: http://arxiv.org/abs/2107.10224v1
- Date: Wed, 21 Jul 2021 17:23:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 14:12:26.747776
- Title: CycleMLP: A MLP-like Architecture for Dense Prediction
- Title(参考訳): CycleMLP: ディエンス予測のためのMLPライクなアーキテクチャ
- Authors: Shoufa Chen, Enze Xie, Chongjian Ge, Ding Liang, Ping Luo
- Abstract要約: CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
- 参考スコア(独自算出の注目度): 26.74203747156439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a simple MLP-like architecture, CycleMLP, which is a
versatile backbone for visual recognition and dense predictions, unlike modern
MLP architectures, e.g., MLP-Mixer, ResMLP, and gMLP, whose architectures are
correlated to image size and thus are infeasible in object detection and
segmentation. CycleMLP has two advantages compared to modern approaches. (1) It
can cope with various image sizes. (2) It achieves linear computational
complexity to image size by using local windows. In contrast, previous MLPs
have quadratic computations because of their fully spatial connections. We
build a family of models that surpass existing MLPs and achieve a comparable
accuracy (83.2%) on ImageNet-1K classification compared to the state-of-the-art
Transformer such as Swin Transformer (83.3%) but using fewer parameters and
FLOPs. We expand the MLP-like models' applicability, making them a versatile
backbone for dense prediction tasks. CycleMLP aims to provide a competitive
baseline on object detection, instance segmentation, and semantic segmentation
for MLP models. In particular, CycleMLP achieves 45.1 mIoU on ADE20K val,
comparable to Swin (45.2 mIOU). Code is available at
\url{https://github.com/ShoufaChen/CycleMLP}.
- Abstract(参考訳): 本稿では,MLP-Mixer,ResMLP,gMLPなどの最新のMLPアーキテクチャとは異なり,視覚認識や高密度な予測のための汎用バックボーンであるCycleMLPを提案する。
CycleMLPは、現代的なアプローチに比べて2つの利点がある。
1)様々な画像サイズに対応できる。
2)局所窓を用いた画像サイズに対する線形計算複雑性を実現する。
対照的に、以前のMLPは空間的接続が完全であるために二次計算をしていた。
我々は既存のMLPを超えるモデル群を構築し、ImageNet-1K分類の精度(83.2%)をSwin Transformer(83.3%)のような最先端のトランスフォーマーと比較するが、パラメータやFLOPは少ない。
我々は、MDPのようなモデルの適用性を拡大し、高密度予測タスクのための汎用的なバックボーンとなる。
CycleMLPは、MLPモデルのオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
特に、CycleMLPはADE20K val上で45.1 mIoUを達成し、Swin (45.2 mIOU)に匹敵する。
コードは \url{https://github.com/shoufachen/cyclemlp} で入手できる。
関連論文リスト
- R2-MLP: Round-Roll MLP for Multi-View 3D Object Recognition [33.53114929452528]
多層パーセプトロン(MLP)のみに基づく視覚アーキテクチャは、コンピュータビジョンコミュニティで注目されている。
本稿では,異なるビューからのパッチ間の通信を考慮し,ビューに基づく3次元オブジェクト認識タスクを提案する。
我々のR$2$MLPは、概念的に単純な構造であるため、既存の手法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2022-11-20T21:13:02Z) - GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation [68.65764751482774]
GraphMLPは3次元ポーズ推定のためのグローバル-ローカル-グラフィック統合アーキテクチャである。
人体のグラフ構造をモデルに組み込んで、3D人間のポーズのドメイン固有の要求を満たす。
複雑な時間力学を単純な方法でモデル化するために拡張することができ、列長の計算コストは無視できる。
論文 参考訳(メタデータ) (2022-06-13T18:59:31Z) - MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.43419144051703]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
論文 参考訳(メタデータ) (2022-06-13T16:21:33Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - ConvMLP: Hierarchical Convolutional MLPs for Vision [7.874749885641495]
本稿では,視覚認識のための軽量でステージワイドな協調設計である階層型 ConMLP を提案する。
本研究では,ConvMLPをシームレスに転送し,少ないパラメータで競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-09T17:52:57Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - S$^2$-MLP: Spatial-Shift MLP Architecture for Vision [34.47616917228978]
近年、視覚変換器(ViT)とその後続の作業は、畳み込みを放棄し、自己注意操作を活用している。
本稿では,空間シフト(S$2$-MLP)という新しい純粋アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-14T15:05:11Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。