論文の概要: GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2206.06420v5
- Date: Sat, 21 Sep 2024 02:46:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 15:46:48.497104
- Title: GraphMLP: A Graph MLP-Like Architecture for 3D Human Pose Estimation
- Title(参考訳): GraphMLP: 3Dヒューマンポース推定のためのグラフMLPライクなアーキテクチャ
- Authors: Wenhao Li, Mengyuan Liu, Hong Liu, Tianyu Guo, Ti Wang, Hao Tang, Nicu Sebe,
- Abstract要約: GraphMLPは3次元ポーズ推定のためのグローバル-ローカル-グラフィック統合アーキテクチャである。
人体のグラフ構造をモデルに組み込んで、3D人間のポーズのドメイン固有の要求を満たす。
複雑な時間力学を単純な方法でモデル化するために拡張することができ、列長の計算コストは無視できる。
- 参考スコア(独自算出の注目度): 68.65764751482774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern multi-layer perceptron (MLP) models have shown competitive results in learning visual representations without self-attention. However, existing MLP models are not good at capturing local details and lack prior knowledge of human body configurations, which limits their modeling power for skeletal representation learning. To address these issues, we propose a simple yet effective graph-reinforced MLP-Like architecture, named GraphMLP, that combines MLPs and graph convolutional networks (GCNs) in a global-local-graphical unified architecture for 3D human pose estimation. GraphMLP incorporates the graph structure of human bodies into an MLP model to meet the domain-specific demand of the 3D human pose, while allowing for both local and global spatial interactions. Furthermore, we propose to flexibly and efficiently extend the GraphMLP to the video domain and show that complex temporal dynamics can be effectively modeled in a simple way with negligible computational cost gains in the sequence length. To the best of our knowledge, this is the first MLP-Like architecture for 3D human pose estimation in a single frame and a video sequence. Extensive experiments show that the proposed GraphMLP achieves state-of-the-art performance on two datasets, i.e., Human3.6M and MPI-INF-3DHP. Code and models are available at https://github.com/Vegetebird/GraphMLP.
- Abstract(参考訳): 現代の多層パーセプトロン(MLP)モデルは、自己注意なしで視覚表現を学習する際の競合的な結果を示している。
しかし、既存のMLPモデルは、局所的な詳細を捉えるのが得意ではなく、人体構成に関する事前の知識が欠けているため、骨格表現学習のモデリング能力は制限されている。
これらの課題に対処するため,我々は,3次元ポーズ推定のためのグローバル・ローカル・グラフィック統一アーキテクチャにおいて,MPPとGCNを組み合わせたグラフ強化型MLPアーキテクチャーGraphMLPを提案する。
GraphMLPは、人体のグラフ構造をMLPモデルに組み込んで、3D人間のポーズのドメイン固有の要求を満たすとともに、局所的およびグローバルな空間的相互作用を可能にする。
さらに,GraphMLPをビデオ領域に柔軟かつ効率的に拡張し,複雑な時間的ダイナミクスを,列長が無視できる計算コストゲインの簡単な方法で効果的にモデル化できることを提案する。
我々の知る限りでは、これは単一のフレームとビデオシーケンスで3次元のポーズ推定を行う最初のMLPライクなアーキテクチャである。
大規模な実験により、提案したGraphMLPは、Human3.6MとMPI-INF-3DHPの2つのデータセットで最先端のパフォーマンスを達成することが示された。
コードとモデルはhttps://github.com/Vegetebird/GraphMLP.comで公開されている。
関連論文リスト
- Graph Neural Machine: A New Model for Learning with Tabular Data [25.339493426758903]
グラフニューラルネットワーク(GNN)は最近、グラフ上で機械学習タスクを実行するための標準ツールになっている。
本稿では,表現が非同期メッセージパッシングGNNモデルと等価であることを示す。
次に、データのための新しい機械学習モデル、いわゆるグラフニューラルネットワーク(GNM)を提案する。
論文 参考訳(メタデータ) (2024-02-05T10:22:15Z) - X-MLP: A Patch Embedding-Free MLP Architecture for Vision [4.493200639605705]
視覚のための多層パーセプトロン (MLP) アーキテクチャが再び人気となった。
X-MLPは、完全に接続された層上に完全に構築され、パッチの埋め込みが不要なアーキテクチャである。
X-MLPは10のベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2023-07-02T15:20:25Z) - Graph-Guided MLP-Mixer for Skeleton-Based Human Motion Prediction [14.988322340164391]
グラフ畳み込みネットワーク(GCN)は人間の動作予測に広く利用されているが、その性能は相変わらず不満足である。
Human-Mixerは、GCNに代わる有望な代替手段として、人間の動き予測に活用されている。
グラフガイダンスを取り入れることで、TextitGraph-Guided Mixerは、人間の骨格のグラフ表現内の特定の接続パターンを効果的にキャプチャし、利用することができる。
論文 参考訳(メタデータ) (2023-04-07T08:11:16Z) - R2-MLP: Round-Roll MLP for Multi-View 3D Object Recognition [33.53114929452528]
多層パーセプトロン(MLP)のみに基づく視覚アーキテクチャは、コンピュータビジョンコミュニティで注目されている。
本稿では,異なるビューからのパッチ間の通信を考慮し,ビューに基づく3次元オブジェクト認識タスクを提案する。
我々のR$2$MLPは、概念的に単純な構造であるため、既存の手法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2022-11-20T21:13:02Z) - MLPInit: Embarrassingly Simple GNN Training Acceleration with MLP
Initialization [51.76758674012744]
大きなグラフ上でグラフニューラルネットワーク(GNN)をトレーニングするのは複雑で、非常に時間がかかる。
我々は、PeerInitと呼ばれるGNNトレーニングアクセラレーションに対して、恥ずかしく単純だが非常に効果的な方法を提案する。
論文 参考訳(メタデータ) (2022-09-30T21:33:51Z) - MLP-3D: A MLP-like 3D Architecture with Grouped Time Mixing [123.43419144051703]
ビデオ認識のための斬新な3Dアーキテクチャを提案する。
結果は、最先端の3D CNNやビデオに匹敵する。
論文 参考訳(メタデータ) (2022-06-13T16:21:33Z) - Hire-MLP: Vision MLP via Hierarchical Rearrangement [58.33383667626998]
Hire-MLPは、再配置によるシンプルだが競合する視覚アーキテクチャである。
提案したHire-MLPアーキテクチャは、単純なチャネル混合操作で構築されており、高い柔軟性と推論速度を享受できる。
実験の結果,Herre-MLPはImageNet-1Kベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-08-30T16:11:04Z) - CycleMLP: A MLP-like Architecture for Dense Prediction [26.74203747156439]
CycleMLPは視覚認識と密度予測のための汎用的なバックボーンである。
様々な画像サイズに対処でき、ローカルウィンドウを使用することで、画像サイズに対する線形計算の複雑さを実現する。
CycleMLPは、モデルに対するオブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションの競合するベースラインを提供することを目的としている。
論文 参考訳(メタデータ) (2021-07-21T17:23:06Z) - AS-MLP: An Axial Shifted MLP Architecture for Vision [50.11765148947432]
本稿では,Axial Shifted Architecture (AS-MLP)を提案する。
特徴写像のチャネルを軸シフトすることにより、AS-MLPは異なる方向から情報の流れを得ることができる。
提案したAS-MLPアーキテクチャでは,ImageNet-1Kデータセット上の88Mパラメータと15.2GFLOPを用いて,83.3%のTop-1精度が得られる。
論文 参考訳(メタデータ) (2021-07-18T08:56:34Z) - MLP-Mixer: An all-MLP Architecture for Vision [93.16118698071993]
マルチ層パーセプトロン(MLP)を基盤としたアーキテクチャ「Mixer」を発表。
Mixerはイメージ分類ベンチマークで競合スコアを獲得し、事前トレーニングと推論は最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2021-05-04T16:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。