論文の概要: Flexible Geometric Guidance for Probabilistic Human Pose Estimation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2602.03126v1
- Date: Tue, 03 Feb 2026 05:35:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.26251
- Title: Flexible Geometric Guidance for Probabilistic Human Pose Estimation with Diffusion Models
- Title(参考訳): 拡散モデルを用いた確率的人物位置推定のためのフレキシブル幾何学的ガイダンス
- Authors: Francis Snelgar, Ming Xu, Stephen Gould, Liang Zheng, Akshay Asthana,
- Abstract要約: 拡散モデルを用いたポーズ推定のためのフレームワークを提案する。
提案手法をHuman 3.6Mデータセット上で評価する。
さらに,MPI-INF-3DHPと3DPWデータセットを用いた一般化能力の評価を行い,競争性能を実証した。
- 参考スコア(独自算出の注目度): 38.64509144392513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D human pose estimation from 2D images is a challenging problem due to depth ambiguity and occlusion. Because of these challenges the task is underdetermined, where there exists multiple -- possibly infinite -- poses that are plausible given the image. Despite this, many prior works assume the existence of a deterministic mapping and estimate a single pose given an image. Furthermore, methods based on machine learning require a large amount of paired 2D-3D data to train and suffer from generalization issues to unseen scenarios. To address both of these issues, we propose a framework for pose estimation using diffusion models, which enables sampling from a probability distribution over plausible poses which are consistent with a 2D image. Our approach falls under the guidance framework for conditional generation, and guides samples from an unconditional diffusion model, trained only on 3D data, using the gradients of the heatmaps from a 2D keypoint detector. We evaluate our method on the Human 3.6M dataset under best-of-$m$ multiple hypothesis evaluation, showing state-of-the-art performance among methods which do not require paired 2D-3D data for training. We additionally evaluate the generalization ability using the MPI-INF-3DHP and 3DPW datasets and demonstrate competitive performance. Finally, we demonstrate the flexibility of our framework by using it for novel tasks including pose generation and pose completion, without the need to train bespoke conditional models. We make code available at https://github.com/fsnelgar/diffusion_pose .
- Abstract(参考訳): 2次元画像からの3次元ポーズ推定は、深さのあいまいさと閉塞性によって難しい問題である。
これらの課題のため、タスクは過小評価され、複数の(おそらく無限の)ポーズが存在する。
それにもかかわらず、多くの先行研究は決定論的写像の存在を仮定し、画像に与えられた1つのポーズを推定する。
さらに、機械学習に基づく手法では、一般化問題に悩まされるように、大量のペア化された2D-3Dデータを必要とする。
両課題に対処するため,拡散モデルを用いたポーズ推定フレームワークを提案する。
提案手法は,2次元キーポイント検出器からの熱マップの勾配を用いて,非条件拡散モデルからサンプルを誘導する。
提案手法は,2D-3Dデータのペア化を必要としない手法で,複数の仮説評価のベスト・オブ・ム($m)に基づくHuman 3.6Mデータセットを用いて評価を行った。
さらに,MPI-INF-3DHPと3DPWデータセットを用いた一般化能力の評価を行い,競争性能を実証した。
最後に,ポーズ生成やポーズ完了といった新しいタスクに使用するフレームワークの柔軟性を示す。
私たちはhttps://github.com/fsnelgar/diffusion_poseでコードを公開しています。
関連論文リスト
- MPL: Lifting 3D Human Pose from Multi-view 2D Poses [75.26416079541723]
本稿では,大規模かつリッチなトレーニングデータセットが存在する2次元ポーズ推定と,トランスフォーマーネットワークを用いた2次元から3次元ポーズリフトを提案する。
実験の結果,MPJPEの誤差は2次元ポーズを三角測量した3次元ポーズと比較して最大45%減少することがわかった。
論文 参考訳(メタデータ) (2024-08-20T12:55:14Z) - ManiPose: Manifold-Constrained Multi-Hypothesis 3D Human Pose Estimation [71.2556016049579]
ManiPoseは、人為的な2D-to-3Dリフトのための多様体拘束型マルチハイブリッドモデルである。
人間のポーズ多様体上の出力を制約することにより、ManiPoseはすべての仮説的なポーズの一貫性を保証する。
実世界のデータセット上でのManiPoseのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-12-11T13:50:10Z) - Diffusion-Based 3D Human Pose Estimation with Multi-Hypothesis
Aggregation [64.874000550443]
ジョイントワイズ・リジェクション・ベース・マルチハイブリッド・アグリゲーション(JPMA)を用いた拡散型3次元ポス推定法を提案する。
提案したJPMAは,D3DPが生成する複数の仮説を1つの3次元ポーズにまとめて実用的に利用する。
提案手法は, 最先端の決定論的アプローチと確率論的アプローチをそれぞれ1.5%, 8.9%上回った。
論文 参考訳(メタデータ) (2023-03-21T04:00:47Z) - DiffPose: Multi-hypothesis Human Pose Estimation using Diffusion models [5.908471365011943]
与えられた入力画像に対して複数の仮説を予測する条件拡散モデルであるemphDiffPoseを提案する。
DiffPoseは, 簡単なポーズの多面的ポーズを推定し, 極めてあいまいなポーズに対して大きなマージンで優れることを示す。
論文 参考訳(メタデータ) (2022-11-29T18:55:13Z) - OSOP: A Multi-Stage One Shot Object Pose Estimation Framework [35.89334617258322]
対象物検出のための新しいワンショット手法と,対象物に対する訓練を必要としない6DoFポーズ推定を提案する。
テスト時には、ターゲット画像とテクスチャ化された3Dクエリモデルを入力する。
The method on LineMOD, Occlusion, Homebrewed, YCB-V and TLESS datasets。
論文 参考訳(メタデータ) (2022-03-29T13:12:00Z) - Probabilistic Monocular 3D Human Pose Estimation with Normalizing Flows [24.0966076588569]
本稿では,不明瞭な逆2D-to-3D問題を解くために,決定論的3D-to-2Dマッピングを利用する正規化フローベース手法を提案する。
我々は、Human3.6MとMPI-INF-3DHPの2つのベンチマークデータセットに対するアプローチを評価し、ほとんどの指標において同等の手法を上回りました。
論文 参考訳(メタデータ) (2021-07-29T07:33:14Z) - Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose
Estimation [74.76155168705975]
Deep Bingham Networks (DBN)は、3Dデータに関するほぼすべての実生活アプリケーションで発生するポーズ関連の不確実性と曖昧性を扱うことができる。
DBNは、(i)異なる分布モードを生成できる多仮説予測ヘッドにより、アートダイレクトポーズ回帰ネットワークの状態を拡張する。
トレーニング中のモードや後方崩壊を回避し,数値安定性を向上させるための新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-12-20T19:20:26Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。