論文の概要: DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior
- arxiv url: http://arxiv.org/abs/2508.00599v2
- Date: Mon, 04 Aug 2025 04:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:57.819417
- Title: DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior
- Title(参考訳): DPoser-X:ロバストな3D人体マップとしての拡散モデル
- Authors: Junzhe Lu, Jing Lin, Hongkun Dou, Ailing Zeng, Yue Deng, Xian Liu, Zhongang Cai, Lei Yang, Yulun Zhang, Haoqian Wang, Ziwei Liu,
- Abstract要約: DPoser-Xは3次元人体写真の拡散に基づく先行モデルである。
提案手法は,様々なポーズ中心タスクを逆問題として統一し,変分拡散サンプリングにより解決する。
我々のモデルは、常に最先端の代替品よりも優れており、人体全体のポーズを事前モデリングするための新しいベンチマークを確立している。
- 参考スコア(独自算出の注目度): 82.9526308672547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DPoser-X, a diffusion-based prior model for 3D whole-body human poses. Building a versatile and robust full-body human pose prior remains challenging due to the inherent complexity of articulated human poses and the scarcity of high-quality whole-body pose datasets. To address these limitations, we introduce a Diffusion model as body Pose prior (DPoser) and extend it to DPoser-X for expressive whole-body human pose modeling. Our approach unifies various pose-centric tasks as inverse problems, solving them through variational diffusion sampling. To enhance performance on downstream applications, we introduce a novel truncated timestep scheduling method specifically designed for pose data characteristics. We also propose a masked training mechanism that effectively combines whole-body and part-specific datasets, enabling our model to capture interdependencies between body parts while avoiding overfitting to specific actions. Extensive experiments demonstrate DPoser-X's robustness and versatility across multiple benchmarks for body, hand, face, and full-body pose modeling. Our model consistently outperforms state-of-the-art alternatives, establishing a new benchmark for whole-body human pose prior modeling.
- Abstract(参考訳): DPoser-Xは3次元人体写真の拡散に基づく先行モデルである。
汎用的で頑丈なフルボディのポーズを前もって構築することは、人間のポーズが本質的に複雑であり、高品質なボディ全体のポーズデータセットが不足しているため、依然として困難である。
これらの制約に対処するため、Diffusion Model をbody Pose prior (DPoser) として導入し、DPoser-X に拡張した。
提案手法は,様々なポーズ中心タスクを逆問題として統一し,変分拡散サンプリングにより解決する。
下流アプリケーションの性能向上を目的として, ポーズデータ特性に特化して設計された新しい時間ステップスケジューリング手法を提案する。
また,身体全体と部分固有のデータセットを効果的に組み合わせたマスク付きトレーニング機構を提案する。
大規模な実験では、ボディ、ハンド、フェイス、フルボディのポーズモデリングのための複数のベンチマークで、DPoser-Xの堅牢性と汎用性を実証している。
我々のモデルは、常に最先端の代替品よりも優れており、人体全体のポーズを事前モデリングするための新しいベンチマークを確立している。
関連論文リスト
- Multi-modal Pose Diffuser: A Multimodal Generative Conditional Pose Prior [8.314155285516073]
MOPEDは、SMPLポーズパラメータの先行として、新しいマルチモーダル条件拡散モデルを利用する最初の方法である。
本手法は,画像やテキストなどのマルチモーダル入力の条件付けが可能な,強力な非条件ポーズ生成を提供する。
論文 参考訳(メタデータ) (2024-10-18T15:29:19Z) - MUC: Mixture of Uncalibrated Cameras for Robust 3D Human Body Reconstruction [12.942635715952525]
複数のカメラは、人物の包括的なマルチビュービデオカバレッジを提供することができる。
以前の研究では、複数の視点の下で自己排除によって生じる課題を見落としていた。
複数のカメラビューから3次元人体を再構築する手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T05:03:25Z) - ManiPose: Manifold-Constrained Multi-Hypothesis 3D Human Pose Estimation [71.2556016049579]
ManiPoseは、人為的な2D-to-3Dリフトのための多様体拘束型マルチハイブリッドモデルである。
人間のポーズ多様体上の出力を制約することにより、ManiPoseはすべての仮説的なポーズの一貫性を保証する。
実世界のデータセット上でのManiPoseのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-12-11T13:50:10Z) - DPoser: Diffusion Model as Robust 3D Human Pose Prior [51.75784816929666]
拡散モデルに基づいて構築された,頑丈で多目的な人間のポーズであるDPoserを紹介する。
DPoserは、様々なポーズ中心タスクを逆問題とみなし、効率的な解法として変分拡散サンプリングを用いる。
提案手法は、画像領域で使用される一般的な均一スケジューリングよりも大幅に改善され、それぞれ5.4%、17.2%、および3.8%の改善が達成された。
論文 参考訳(メタデータ) (2023-12-09T11:18:45Z) - A generic diffusion-based approach for 3D human pose prediction in the
wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。
本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。
本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-10-11T17:59:54Z) - Pose-NDF: Modeling Human Pose Manifolds with Neural Distance Fields [47.62275563070933]
ニューラル距離場(NDF)に基づく可塑性人間のポーズの連続モデルを提案する。
Pose-NDFは、ニューラルネットワークの暗黙関数のゼロレベル集合として可塑性ポーズの多様体を学習する。
ランダムサンプリングとプロジェクションにより、VAEベースの手法よりも多様なポーズを生成することができる。
論文 参考訳(メタデータ) (2022-07-27T21:46:47Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - imGHUM: Implicit Generative Models of 3D Human Shape and Articulated
Pose [42.4185273307021]
人間の3次元形状とポーズの合成モデルImGHUMについて述べる。
人間の全身をゼロレベルの関数として暗黙的にモデル化し、明示的なテンプレートメッシュを使用しない。
論文 参考訳(メタデータ) (2021-08-24T17:08:28Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。