論文の概要: MorphMLP: A Self-Attention Free, MLP-Like Backbone for Image and Video
- arxiv url: http://arxiv.org/abs/2111.12527v1
- Date: Wed, 24 Nov 2021 14:52:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 15:29:22.543196
- Title: MorphMLP: A Self-Attention Free, MLP-Like Backbone for Image and Video
- Title(参考訳): MorphMLP:画像とビデオのための自己注意型MLP風バックボーン
- Authors: David Junhao Zhang, Kunchang Li, Yunpeng Chen, Yali Wang, Shashwat
Chandra, Yu Qiao, Luoqi Liu, Mike Zheng Shou
- Abstract要約: 我々は,低層層における局所的な詳細の収集に焦点をあてる新しいMorphMLPアーキテクチャを提案する。
具体的には、MorphFCと呼ばれるフル接続型層を、高さと幅の寸法に沿って徐々に受容界を成長させる2つの形態可能なフィルタで設計する。さらに興味深いことに、ビデオ領域でMorphFC層を柔軟に適応させることを提案する。
- 参考スコア(独自算出の注目度): 46.01627714874441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention has become an integral component of the recent network
architectures, e.g., Transformer, that dominate major image and video
benchmarks. This is because self-attention can flexibly model long-range
information. For the same reason, researchers make attempts recently to revive
Multiple Layer Perceptron (MLP) and propose a few MLP-Like architectures,
showing great potential. However, the current MLP-Like architectures are not
good at capturing local details and lack progressive understanding of core
details in the images and/or videos. To overcome this issue, we propose a novel
MorphMLP architecture that focuses on capturing local details at the low-level
layers, while gradually changing to focus on long-term modeling at the
high-level layers. Specifically, we design a Fully-Connected-Like layer, dubbed
as MorphFC, of two morphable filters that gradually grow its receptive field
along the height and width dimension. More interestingly, we propose to
flexibly adapt our MorphFC layer in the video domain. To our best knowledge, we
are the first to create a MLP-Like backbone for learning video representation.
Finally, we conduct extensive experiments on image classification, semantic
segmentation and video classification. Our MorphMLP, such a self-attention free
backbone, can be as powerful as and even outperform self-attention based
models.
- Abstract(参考訳): セルフアテンションは、最近のネットワークアーキテクチャ(例えばTransformer)の不可欠なコンポーネントとなり、主要な画像とビデオのベンチマークを支配している。
これは、自己注意が柔軟に長距離情報をモデル化できるためである。
同じ理由から、研究者は最近、Multiple Layer Perceptron(MLP)を復活させ、MLPライクなアーキテクチャをいくつか提案しようとしている。
しかし、現在のMLPライクなアーキテクチャは、局所的な詳細を捉えたり、画像やビデオの中核的な詳細を進歩的に理解することができない。
この問題を克服するため,我々は低レベル層における局所的な詳細を捉えつつ,高レベル層での長期モデリングに徐々に焦点を合わせながら,新しいmorphmlpアーキテクチャを提案する。
具体的には、高さと幅の寸法に沿って徐々に受容磁場を増大させる2つのモルファブルフィルタからなる、morphfcと呼ばれる完全連結型層をデザインする。
さらに,ビデオ領域にmorphfc層を柔軟に適用することを提案する。
私たちの知る限りでは、ビデオ表現を学ぶためのMLPライクなバックボーンを最初に作りました。
最後に,画像分類,意味セグメンテーション,映像分類について広範な実験を行った。
私たちのMorphMLPは、そのような自己意図のないバックボーンであり、自己意図に基づくモデルと同じくらい強力で、さらに優れています。
関連論文リスト
- X-MLP: A Patch Embedding-Free MLP Architecture for Vision [4.493200639605705]
視覚のための多層パーセプトロン (MLP) アーキテクチャが再び人気となった。
X-MLPは、完全に接続された層上に完全に構築され、パッチの埋め込みが不要なアーキテクチャである。
X-MLPは10のベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2023-07-02T15:20:25Z) - GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation [68.65764751482774]
GraphMLPは3次元ポーズ推定のためのグローバル-ローカル-グラフィック統合アーキテクチャである。
人体のグラフ構造をモデルに組み込んで、3D人間のポーズのドメイン固有の要求を満たす。
複雑な時間力学を単純な方法でモデル化するために拡張することができ、列長の計算コストは無視できる。
論文 参考訳(メタデータ) (2022-06-13T18:59:31Z) - MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.43419144051703]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
論文 参考訳(メタデータ) (2022-06-13T16:21:33Z) - An Image Patch is a Wave: Phase-Aware Vision MLP [54.104040163690364]
マルチレイヤパーセプトロン(MLP)は、完全に接続されたレイヤのみを積み重ねた、非常に単純なアーキテクチャを持つ新しいタイプの視覚モデルである。
本稿では,各トークンを振幅と位相の2つの部分を持つ波動関数として表現することを提案する。
実験により、提案したWave-MLPは、様々な視覚タスクにおける最先端アーキテクチャよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-11-24T06:25:49Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。