論文の概要: DPoser: Diffusion Model as Robust 3D Human Pose Prior
- arxiv url: http://arxiv.org/abs/2312.05541v2
- Date: Sat, 23 Mar 2024 04:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 02:05:37.866267
- Title: DPoser: Diffusion Model as Robust 3D Human Pose Prior
- Title(参考訳): DPoser: 人類の3Dマップに先立つロバストな拡散モデル
- Authors: Junzhe Lu, Jing Lin, Hongkun Dou, Ailing Zeng, Yue Deng, Yulun Zhang, Haoqian Wang,
- Abstract要約: 拡散モデルに基づいて構築された,頑丈で多目的な人間のポーズであるDPoserを紹介する。
DPoserは、様々なポーズ中心タスクを逆問題とみなし、効率的な解法として変分拡散サンプリングを用いる。
提案手法は、画像領域で使用される一般的な均一スケジューリングよりも大幅に改善され、それぞれ5.4%、17.2%、および3.8%の改善が達成された。
- 参考スコア(独自算出の注目度): 51.75784816929666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work targets to construct a robust human pose prior. However, it remains a persistent challenge due to biomechanical constraints and diverse human movements. Traditional priors like VAEs and NDFs often exhibit shortcomings in realism and generalization, notably with unseen noisy poses. To address these issues, we introduce DPoser, a robust and versatile human pose prior built upon diffusion models. DPoser regards various pose-centric tasks as inverse problems and employs variational diffusion sampling for efficient solving. Accordingly, designed with optimization frameworks, DPoser seamlessly benefits human mesh recovery, pose generation, pose completion, and motion denoising tasks. Furthermore, due to the disparity between the articulated poses and structured images, we propose truncated timestep scheduling to enhance the effectiveness of DPoser. Our approach demonstrates considerable enhancements over common uniform scheduling used in image domains, boasting improvements of 5.4%, 17.2%, and 3.8% across human mesh recovery, pose completion, and motion denoising, respectively. Comprehensive experiments demonstrate the superiority of DPoser over existing state-of-the-art pose priors across multiple tasks.
- Abstract(参考訳): この作業は、前に堅牢な人間のポーズを構築することを目的としています。
しかし、生体機械的制約と多様な人間の動きのため、これは永続的な課題である。
VAEやNDFのような伝統的な先行は、現実主義や一般化の欠点、特に目に見えない騒々しいポーズをしばしば示している。
これらの問題に対処するために,拡散モデルに基づいて構築された,頑健で多目的な人間のポーズであるDPoserを紹介する。
DPoserは、様々なポーズ中心タスクを逆問題とみなし、効率的な解法として変分拡散サンプリングを用いる。
したがって、最適化フレームワークで設計されたDPoserは、ヒューマンメッシュリカバリ、ポーズ生成、ポーズ補完、モーションデノベーションタスクをシームレスに改善する。
さらに、合成されたポーズと構造化画像の相違により、DPoserの有効性を高めるために、切り詰められた時間ステップスケジューリングを提案する。
提案手法は、画像領域で使用される一般的な均一スケジューリングよりも大幅に改善され、それぞれ5.4%、17.2%、および3.8%の改善が達成された。
総合的な実験は、複数のタスクにまたがる既存の最先端のポーズよりもDPoserの方が優れていることを示す。
関連論文リスト
- Multi-modal Pose Diffuser: A Multimodal Generative Conditional Pose Prior [8.314155285516073]
MOPEDは、SMPLポーズパラメータの先行として、新しいマルチモーダル条件拡散モデルを利用する最初の方法である。
本手法は,画像やテキストなどのマルチモーダル入力の条件付けが可能な,強力な非条件ポーズ生成を提供する。
論文 参考訳(メタデータ) (2024-10-18T15:29:19Z) - Within the Dynamic Context: Inertia-aware 3D Human Modeling with Pose Sequence [47.16903508897047]
本研究では、現在のフレームのポーズ状態だけでなく、過去のポーズ状態にも人間の外観の変化が依存していることを明らかにする。
非剛性変形に対するデルタポーズシーケンス表現を利用した新しい手法であるDycoを導入する。
さらに, 慣性を考慮した3次元人間の手法は, 異なる速度での慣性による外観変化を前例なくシミュレートすることができる。
論文 参考訳(メタデータ) (2024-03-28T06:05:14Z) - Multi-Human Mesh Recovery with Transformers [5.420974192779563]
本稿では,マルチスケール機能の導入,集中型注意機構,相対的共同管理という3つの重要な設計選択を特徴とする,合理化トランスフォーマーに基づく設計モデルを提案する。
提案モデルでは、複数の個人を含む様々なベンチマークにおいて、最先端の領域ベースおよび全体像ベースの手法を超越した、大幅な性能向上を示す。
論文 参考訳(メタデータ) (2024-02-26T18:28:05Z) - ManiPose: Manifold-Constrained Multi-Hypothesis 3D Human Pose Estimation [54.86887812687023]
ほとんどの3D-HPE法は回帰モデルに依存しており、入力と出力の1対1のマッピングを前提としている。
提案するManiPoseは,2次元入力毎に複数の候補3次元ポーズを提案可能な,新しい多様体制約型マルチハイポテーシスモデルである。
従来のマルチハイブリッドアプローチとは異なり、我々のソリューションは完全に教師付きであり、複雑な生成モデルに依存しない。
論文 参考訳(メタデータ) (2023-12-11T13:50:10Z) - Motion-DVAE: Unsupervised learning for fast human motion denoising [18.432026846779372]
本研究では,人間の動作の短期的依存を捉えるための動きであるMotion-DVAEを紹介する。
我々は、Motion-DVAEとともに、回帰と最適化に基づくアプローチを統一する教師なし学習型復調手法を導入する。
論文 参考訳(メタデータ) (2023-06-09T12:18:48Z) - Proactive Multi-Camera Collaboration For 3D Human Pose Estimation [16.628446718419344]
本稿では,3次元人物位置推定におけるプロアクティブなマルチカメラ協調のためのマルチエージェント強化学習手法を提案する。
アクティブカメラは3次元再構成に最適な視点を求めるために、積極的にカメラのポーズを制御している。
我々は、環境ダイナミクスをよりよく捉えるために、複数の世界ダイナミクス学習タスクでモデルを共同で訓練する。
論文 参考訳(メタデータ) (2023-03-07T10:01:00Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。