論文の概要: DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion
Probabilistic Model
- arxiv url: http://arxiv.org/abs/2212.02796v3
- Date: Thu, 3 Aug 2023 09:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 17:25:28.259915
- Title: DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion
Probabilistic Model
- Title(参考訳): DiffuPose:拡散確率モデルによる単眼的3次元人物位置推定
- Authors: Jeongjun Choi, Dongseok Shim, H. Jin Kim
- Abstract要約: 本稿では,1つの2次元キーポイント検出から3次元ポーズを再構築することに焦点を当てた。
我々は,市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。
我々は,広く採用されているHuman3.6MとHumanEva-Iデータセットについて評価を行った。
- 参考スコア(独自算出の注目度): 25.223801390996435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thanks to the development of 2D keypoint detectors, monocular 3D human pose
estimation (HPE) via 2D-to-3D uplifting approaches have achieved remarkable
improvements. Still, monocular 3D HPE is a challenging problem due to the
inherent depth ambiguities and occlusions. To handle this problem, many
previous works exploit temporal information to mitigate such difficulties.
However, there are many real-world applications where frame sequences are not
accessible. This paper focuses on reconstructing a 3D pose from a single 2D
keypoint detection. Rather than exploiting temporal information, we alleviate
the depth ambiguity by generating multiple 3D pose candidates which can be
mapped to an identical 2D keypoint. We build a novel diffusion-based framework
to effectively sample diverse 3D poses from an off-the-shelf 2D detector. By
considering the correlation between human joints by replacing the conventional
denoising U-Net with graph convolutional network, our approach accomplishes
further performance improvements. We evaluate our method on the widely adopted
Human3.6M and HumanEva-I datasets. Comprehensive experiments are conducted to
prove the efficacy of the proposed method, and they confirm that our model
outperforms state-of-the-art multi-hypothesis 3D HPE methods.
- Abstract(参考訳): 2Dキーポイント検出器の開発により、2D-to-3Dアップリフトアプローチによる単眼的3次元ポーズ推定(HPE)は目覚ましい改善を遂げた。
しかし, 単眼の3d hpeは, 内在的な奥行きあいまいさと咬合性のため, 難しい問題である。
この問題に対処するため、過去の多くの研究は時間的情報を利用してそのような困難を緩和した。
しかし、フレームシーケンスがアクセスできない現実世界のアプリケーションも数多く存在する。
本稿では,1つの2次元キーポイント検出から3次元ポーズを再構成することに焦点を当てる。
時間的情報を活用するのではなく、同一の2Dキーポイントにマッピング可能な複数の3Dポーズ候補を生成することにより、深さの曖昧さを軽減する。
市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。
従来の分節u-netをグラフ畳み込みネットワークに置き換えることでヒト関節間の相関を考慮し,さらなる性能向上を実現する。
本手法は広く採用されているhuman3.6mおよびhumaneva-iデータセットを用いて評価する。
提案手法の有効性を証明するための総合的な実験を行い,本モデルが最先端のマルチハイポテーシス3D HPE法より優れていることを確認した。
関連論文リスト
- X as Supervision: Contending with Depth Ambiguity in Unsupervised Monocular 3D Pose Estimation [12.765995624408557]
マルチハイポテーシス検出と複数の調整済みプレテキストタスクを特徴とする教師なしフレームワークを提案する。
ローカルウィンドウ内のヒートマップから複数の仮説を抽出し、マルチソリューション問題を効果的に管理する。
プリテキストタスクは、SMPLモデルからの3D人間の事前情報を利用して、ポーズ推定の解空間を規則化し、それを3D人間の構造を経験的分布と整合させる。
論文 参考訳(メタデータ) (2024-11-20T04:18:11Z) - Enhancing 3D Human Pose Estimation Amidst Severe Occlusion with Dual Transformer Fusion [13.938406073551844]
本稿では,DTF(Dual Transformer Fusion)アルゴリズムを提案する。
正確な3Dヒューマンポース推定を実現するために,本手法では,まず2つの中間ビューを生成する革新的なDTFアーキテクチャを利用する。
このアプローチは、両方のデータセットで既存の最先端メソッドよりも優れており、大幅に改善されています。
論文 参考訳(メタデータ) (2024-10-06T18:15:27Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - 3D-Aware Neural Body Fitting for Occlusion Robust 3D Human Pose
Estimation [28.24765523800196]
本研究では,3次元ポーズ推定のための3次元認識型ニューラルボディフィッティング(3DNBF)を提案する。
特に,3次元ポーズ依存特徴ベクトルを出力するガウス楕円体カーネルを用いた人間の体積表現に基づく深部特徴の生成モデルを提案する。
ニューラル特徴は、対照的な学習で訓練され、3D認識となり、2D-3D曖昧さを克服する。
論文 参考訳(メタデータ) (2023-08-19T22:41:00Z) - Diffusion-Based 3D Human Pose Estimation with Multi-Hypothesis
Aggregation [64.874000550443]
ジョイントワイズ・リジェクション・ベース・マルチハイブリッド・アグリゲーション(JPMA)を用いた拡散型3次元ポス推定法を提案する。
提案したJPMAは,D3DPが生成する複数の仮説を1つの3次元ポーズにまとめて実用的に利用する。
提案手法は, 最先端の決定論的アプローチと確率論的アプローチをそれぞれ1.5%, 8.9%上回った。
論文 参考訳(メタデータ) (2023-03-21T04:00:47Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - Probabilistic Monocular 3D Human Pose Estimation with Normalizing Flows [24.0966076588569]
本稿では,不明瞭な逆2D-to-3D問題を解くために,決定論的3D-to-2Dマッピングを利用する正規化フローベース手法を提案する。
我々は、Human3.6MとMPI-INF-3DHPの2つのベンチマークデータセットに対するアプローチを評価し、ほとんどの指標において同等の手法を上回りました。
論文 参考訳(メタデータ) (2021-07-29T07:33:14Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Weakly Supervised Generative Network for Multiple 3D Human Pose
Hypotheses [74.48263583706712]
単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。
逆問題に対処するために,弱い教師付き深層生成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。