論文の概要: MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing
- arxiv url: http://arxiv.org/abs/2206.06292v1
- Date: Mon, 13 Jun 2022 16:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 14:20:41.654679
- Title: MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing
- Title(参考訳): MLP-3D:グループ時間混合型MLPライクな3Dアーキテクチャ
- Authors: Zhaofan Qiu and Ting Yao and Chong-Wah Ngo and Tao Mei
- Abstract要約: ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
- 参考スコア(独自算出の注目度): 123.43419144051703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (CNNs) have been regarded as the go-to models
for visual recognition. More recently, convolution-free networks, based on
multi-head self-attention (MSA) or multi-layer perceptrons (MLPs), become more
and more popular. Nevertheless, it is not trivial when utilizing these
newly-minted networks for video recognition due to the large variations and
complexities in video data. In this paper, we present MLP-3D networks, a novel
MLP-like 3D architecture for video recognition. Specifically, the architecture
consists of MLP-3D blocks, where each block contains one MLP applied across
tokens (i.e., token-mixing MLP) and one MLP applied independently to each token
(i.e., channel MLP). By deriving the novel grouped time mixing (GTM)
operations, we equip the basic token-mixing MLP with the ability of temporal
modeling. GTM divides the input tokens into several temporal groups and
linearly maps the tokens in each group with the shared projection matrix.
Furthermore, we devise several variants of GTM with different grouping
strategies, and compose each variant in different blocks of MLP-3D network by
greedy architecture search. Without the dependence on convolutions or attention
mechanisms, our MLP-3D networks achieves 68.5\%/81.4\% top-1 accuracy on
Something-Something V2 and Kinetics-400 datasets, respectively. Despite with
fewer computations, the results are comparable to state-of-the-art widely-used
3D CNNs and video transformers. Source code is available at
https://github.com/ZhaofanQiu/MLP-3D.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、視覚認識のためのゴートモデルとみなされてきた。
近年,MSA(Multi-head self-attention)やMLP(Multi-layer perceptrons)に基づく畳み込みのないネットワークが普及している。
それにもかかわらず、ビデオデータの大きなバリエーションや複雑さのために、これらの新たなネットワークをビデオ認識に活用するのは簡単ではない。
本稿では,ビデオ認識のための新しい3DアーキテクチャであるMLP-3Dネットワークを提案する。
具体的には、MLP-3Dブロックで構成され、各ブロックはトークン間で適用される1つのMLP(トークン混合MLP)と、各トークンに対して独立して適用される1つのMLP(チャネルMLP)を含む。
新規なグループ化時間混合(GTM)演算の導出により,時間的モデリングの能力を備えた基本トークン混合MLPを開発した。
GTMは入力トークンを複数の時間群に分割し、各グループのトークンを共有射影行列で線形にマッピングする。
さらに,GTM の様々な変種をグループ化戦略で考案し,各変種を Greedy アーキテクチャサーチにより MLP-3D ネットワークの異なるブロックに構成する。
コンボリューションやアテンション機構に依存せずに、我々のMLP-3Dネットワークは、Somes-Something V2 と Kinetics-400 のデータセット上で、それぞれ68.5\%/81.4\%のトップ-1精度を達成する。
計算量が少ないにもかかわらず、結果は最先端の3D CNNやビデオトランスフォーマーに匹敵する。
ソースコードはhttps://github.com/ZhaofanQiu/MLP-3Dで入手できる。
関連論文リスト
- X-MLP: A Patch Embedding-Free MLP Architecture for Vision [4.493200639605705]
視覚のための多層パーセプトロン (MLP) アーキテクチャが再び人気となった。
X-MLPは、完全に接続された層上に完全に構築され、パッチの埋め込みが不要なアーキテクチャである。
X-MLPは10のベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2023-07-02T15:20:25Z) - R2-MLP: Round-Roll MLP for Multi-View 3D Object Recognition [33.53114929452528]
多層パーセプトロン(MLP)のみに基づく視覚アーキテクチャは、コンピュータビジョンコミュニティで注目されている。
本稿では,異なるビューからのパッチ間の通信を考慮し,ビューに基づく3次元オブジェクト認識タスクを提案する。
我々のR$2$MLPは、概念的に単純な構造であるため、既存の手法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2022-11-20T21:13:02Z) - GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation [68.65764751482774]
GraphMLPは3次元ポーズ推定のためのグローバル-ローカル-グラフィック統合アーキテクチャである。
人体のグラフ構造をモデルに組み込んで、3D人間のポーズのドメイン固有の要求を満たす。
複雑な時間力学を単純な方法でモデル化するために拡張することができ、列長の計算コストは無視できる。
論文 参考訳(メタデータ) (2022-06-13T18:59:31Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - An Image Patch is a Wave: Phase-Aware Vision MLP [54.104040163690364]
マルチレイヤパーセプトロン(MLP)は、完全に接続されたレイヤのみを積み重ねた、非常に単純なアーキテクチャを持つ新しいタイプの視覚モデルである。
本稿では,各トークンを振幅と位相の2つの部分を持つ波動関数として表現することを提案する。
実験により、提案したWave-MLPは、様々な視覚タスクにおける最先端アーキテクチャよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-11-24T06:25:49Z) - Sparse MLP for Image Recognition: Is Self-Attention Really Necessary? [65.37917850059017]
我々は sMLPNet というアテンションレスネットワークを構築した。
2次元画像トークンでは、sMLPは軸方向に沿って1Dを適用し、パラメータは行または列間で共有される。
66Mパラメータにスケールアップする際、sMLPNetは83.4%のトップ-1精度を達成しており、これは最先端のSwin Transformerと同等である。
論文 参考訳(メタデータ) (2021-09-12T04:05:15Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - S$^2$-MLP: Spatial-Shift MLP Architecture for Vision [34.47616917228978]
近年、視覚変換器(ViT)とその後続の作業は、畳み込みを放棄し、自己注意操作を活用している。
本稿では,空間シフト(S$2$-MLP)という新しい純粋アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-14T15:05:11Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。