論文の概要: Dynamic Graph Reasoning for Multi-person 3D Pose Estimation
- arxiv url: http://arxiv.org/abs/2207.11341v1
- Date: Fri, 22 Jul 2022 21:20:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:17:20.336170
- Title: Dynamic Graph Reasoning for Multi-person 3D Pose Estimation
- Title(参考訳): 多人数3次元ポーズ推定のための動的グラフ推論
- Authors: Zhongwei Qiu, Qiansheng Yang, Jian Wang, Dongmei Fu
- Abstract要約: 我々は,textbfGraph textbfReasoningを用いて,textbfMulti-person textbf3Dのポーズ推定をモデル化したGR-M3Dを提案する。
GR-M3Dは、入力データに応じてソフトパス重みを採用することにより、復号グラフの構造を暗黙的に調整することができる。
提案したボトムアップ手法がトップダウン手法よりも優れており、3つの3次元ポーズデータセットに対して最先端の結果が得られることを実証的に示す。
- 参考スコア(独自算出の注目度): 6.270047084514142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-person 3D pose estimation is a challenging task because of occlusion
and depth ambiguity, especially in the cases of crowd scenes. To solve these
problems, most existing methods explore modeling body context cues by enhancing
feature representation with graph neural networks or adding structural
constraints. However, these methods are not robust for their single-root
formulation that decoding 3D poses from a root node with a pre-defined graph.
In this paper, we propose GR-M3D, which models the \textbf{M}ulti-person
\textbf{3D} pose estimation with dynamic \textbf{G}raph \textbf{R}easoning. The
decoding graph in GR-M3D is predicted instead of pre-defined. In particular, It
firstly generates several data maps and enhances them with a scale and depth
aware refinement module (SDAR). Then multiple root keypoints and dense decoding
paths for each person are estimated from these data maps. Based on them,
dynamic decoding graphs are built by assigning path weights to the decoding
paths, while the path weights are inferred from those enhanced data maps. And
this process is named dynamic graph reasoning (DGR). Finally, the 3D poses are
decoded according to dynamic decoding graphs for each detected person. GR-M3D
can adjust the structure of the decoding graph implicitly by adopting soft path
weights according to input data, which makes the decoding graphs be adaptive to
different input persons to the best extent and more capable of handling
occlusion and depth ambiguity than previous methods. We empirically show that
the proposed bottom-up approach even outperforms top-down methods and achieves
state-of-the-art results on three 3D pose datasets.
- Abstract(参考訳): 複数人物の3次元ポーズ推定は,特に群集シーンにおいて,隠蔽と奥行きのあいまいさのため,困難な課題である。
これらの問題を解決するために、既存の手法では、グラフニューラルネットワークによる特徴表現の拡張や構造的制約の追加により、ボディコンテキストの手がかりをモデル化している。
しかし、これらの手法は、事前定義されたグラフを持つルートノードから3dをデコードする単一ルート定式化では堅牢ではない。
本稿では, gr-m3d を提案する。これは動的な \textbf{g}raph \textbf{r}easoning を用いて, \textbf{m}ulti-person \textbf{3d} ポーズ推定をモデル化する。
GR-M3Dの復号グラフは事前定義ではなく予測される。
特に、まずいくつかのデータマップを生成し、sdar(scale and depth awarefine module)でそれらを拡張します。
そして、これらのデータマップから、各人物の複数のルートキーポイントと密集した復号パスを推定する。
これらに基づいて、動的復号グラフは、復号経路に経路重みを割り当て、その拡張されたデータマップから経路重みを推定することによって構築される。
この過程は動的グラフ推論 (DGR) と呼ばれる。
最後に、3dポーズを検出者毎に動的デコードグラフに従ってデコードする。
gr-m3dは、入力データに応じてソフトパス重みを採用して暗黙的に復号グラフの構造を調整でき、これにより、復号グラフを異なる入力者に対して最善の適応性を持たせ、従来の方法よりも咬合や深さの曖昧さを扱うことができる。
本研究では,提案手法がトップダウン手法よりも優れており,3次元ポーズデータセットにおいて最先端の結果が得られることを示す。
関連論文リスト
- FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。
本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-13T01:25:05Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - Sampling is Matter: Point-guided 3D Human Mesh Reconstruction [0.0]
本稿では,1枚のRGB画像から3次元メッシュ再構成を行うための簡易かつ強力な手法を提案する。
評価実験の結果,提案手法は3次元メッシュ再構成の性能を効率よく向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T08:45:26Z) - Hierarchical Graph Networks for 3D Human Pose Estimation [50.600944798627786]
最近の2次元から3次元の人間のポーズ推定は、人間の骨格のトポロジーによって形成されたグラフ構造を利用する傾向がある。
この骨格トポロジーは体の構造を反映するには小さすぎるため、重度の2次元から3次元のあいまいさに悩まされていると我々は主張する。
本稿では,これらの弱点を克服するために,新しいグラフ畳み込みネットワークアーキテクチャである階層グラフネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-23T15:09:03Z) - Joint 3D Human Shape Recovery from A Single Imag with Bilayer-Graph [35.375489948345404]
画像から3次元の人物形状とポーズを推定するための2次元グラフ手法を提案する。
密なグラフから得られた粗いグラフを用いて、人間の3次元のポーズを推定し、密なグラフを使って3次元の形状を推定する。
エンド・ツー・エンドのモデルをトレーニングし、いくつかの評価データセットに対して最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-16T05:04:02Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D
Sequences [76.28527350263012]
rgb-dフレームのシーケンスを与えられた3次元環境から意味的シーングラフを漸進的に構築する手法を提案する。
我々は、グラフニューラルネットワークを用いて、プリミティブシーンコンポーネントからpointnet機能を集約する。
提案手法は,35hzで動作する他の3dセマンティクスおよびパンオプティカルセグメンテーション法と同等の精度で,高いマージンで3dシーングラフ予測手法を上回る。
論文 参考訳(メタデータ) (2021-03-27T13:00:36Z) - HandVoxNet: Deep Voxel-Based Network for 3D Hand Shape and Pose
Estimation from a Single Depth Map [72.93634777578336]
弱教師付き方式で3次元畳み込みを訓練した新しいアーキテクチャを提案する。
提案されたアプローチは、SynHand5Mデータセット上で、アートの状態を47.8%改善する。
我々の手法は、NYUとBigHand2.2Mデータセットで視覚的により合理的で現実的な手形を生成する。
論文 参考訳(メタデータ) (2020-04-03T14:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。