論文の概要: Multi-modal Pose Diffuser: A Multimodal Generative Conditional Pose Prior
- arxiv url: http://arxiv.org/abs/2410.14540v1
- Date: Fri, 18 Oct 2024 15:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:08.848788
- Title: Multi-modal Pose Diffuser: A Multimodal Generative Conditional Pose Prior
- Title(参考訳): マルチモーダル・ポス・ディフューザ:マルチモーダル・ジェネレーティブ・コンディショナリー・ポス・プリエント
- Authors: Calvin-Khang Ta, Arindam Dutta, Rohit Kundu, Rohit Lal, Hannah Dela Cruz, Dripta S. Raychaudhuri, Amit Roy-Chowdhury,
- Abstract要約: MOPEDは、SMPLポーズパラメータの先行として、新しいマルチモーダル条件拡散モデルを利用する最初の方法である。
本手法は,画像やテキストなどのマルチモーダル入力の条件付けが可能な,強力な非条件ポーズ生成を提供する。
- 参考スコア(独自算出の注目度): 8.314155285516073
- License:
- Abstract: The Skinned Multi-Person Linear (SMPL) model plays a crucial role in 3D human pose estimation, providing a streamlined yet effective representation of the human body. However, ensuring the validity of SMPL configurations during tasks such as human mesh regression remains a significant challenge , highlighting the necessity for a robust human pose prior capable of discerning realistic human poses. To address this, we introduce MOPED: \underline{M}ulti-m\underline{O}dal \underline{P}os\underline{E} \underline{D}iffuser. MOPED is the first method to leverage a novel multi-modal conditional diffusion model as a prior for SMPL pose parameters. Our method offers powerful unconditional pose generation with the ability to condition on multi-modal inputs such as images and text. This capability enhances the applicability of our approach by incorporating additional context often overlooked in traditional pose priors. Extensive experiments across three distinct tasks-pose estimation, pose denoising, and pose completion-demonstrate that our multi-modal diffusion model-based prior significantly outperforms existing methods. These results indicate that our model captures a broader spectrum of plausible human poses.
- Abstract(参考訳): Skinned Multi-Person Linear (SMPL) モデルは3次元人間のポーズ推定において重要な役割を果たす。
しかしながら、人間のメッシュ回帰のようなタスクにおけるSMPL構成の有効性を保証することは、現実的な人間のポーズを識別できる前に頑健な人間のポーズの必要性を強調し、重要な課題である。
MOPED: \underline{M}ulti-m\underline{O}dal \underline{P}os\underline{E} \underline{D}iffuser。
MOPEDは、SMPLポーズパラメータの先行として、新しいマルチモーダル条件拡散モデルを利用する最初の方法である。
本手法は,画像やテキストなどのマルチモーダル入力の条件付けが可能な,強力な非条件ポーズ生成を提供する。
この機能は、従来のポーズ前で見過ごされがちな追加のコンテキストを組み込むことで、アプローチの適用性を高める。
複数モーダル拡散モデルに基づく実験では, 3つのタスクの目的推定, 相乗効果, 相乗効果, 相乗効果が既存手法より有意に優れていた。
これらの結果は、我々のモデルがより広い範囲の人間のポーズを捉えていることを示している。
関連論文リスト
- $\text{Di}^2\text{Pose}$: Discrete Diffusion Model for Occluded 3D Human Pose Estimation [17.281031933210762]
本稿では,3次元ポーズ推定のための新しいフレームワークであるDigital Diffusion Pose(textDi2textPose$)を紹介する。
$textDi2textPose$は2段階のプロセスを採用している。
この方法論的な革新は、物理的に実行可能な構成への探索空間を限定的に制限する。
論文 参考訳(メタデータ) (2024-05-27T10:01:36Z) - Within the Dynamic Context: Inertia-aware 3D Human Modeling with Pose Sequence [47.16903508897047]
本研究では、現在のフレームのポーズ状態だけでなく、過去のポーズ状態にも人間の外観の変化が依存していることを明らかにする。
非剛性変形に対するデルタポーズシーケンス表現を利用した新しい手法であるDycoを導入する。
さらに, 慣性を考慮した3次元人間の手法は, 異なる速度での慣性による外観変化を前例なくシミュレートすることができる。
論文 参考訳(メタデータ) (2024-03-28T06:05:14Z) - ManiPose: Manifold-Constrained Multi-Hypothesis 3D Human Pose Estimation [54.86887812687023]
ほとんどの3D-HPE法は回帰モデルに依存しており、入力と出力の1対1のマッピングを前提としている。
提案するManiPoseは,2次元入力毎に複数の候補3次元ポーズを提案可能な,新しい多様体制約型マルチハイポテーシスモデルである。
従来のマルチハイブリッドアプローチとは異なり、我々のソリューションは完全に教師付きであり、複雑な生成モデルに依存しない。
論文 参考訳(メタデータ) (2023-12-11T13:50:10Z) - DPoser: Diffusion Model as Robust 3D Human Pose Prior [51.75784816929666]
拡散モデルに基づいて構築された,頑丈で多目的な人間のポーズであるDPoserを紹介する。
DPoserは、様々なポーズ中心タスクを逆問題とみなし、効率的な解法として変分拡散サンプリングを用いる。
提案手法は、画像領域で使用される一般的な均一スケジューリングよりも大幅に改善され、それぞれ5.4%、17.2%、および3.8%の改善が達成された。
論文 参考訳(メタデータ) (2023-12-09T11:18:45Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Pose-NDF: Modeling Human Pose Manifolds with Neural Distance Fields [47.62275563070933]
ニューラル距離場(NDF)に基づく可塑性人間のポーズの連続モデルを提案する。
Pose-NDFは、ニューラルネットワークの暗黙関数のゼロレベル集合として可塑性ポーズの多様体を学習する。
ランダムサンプリングとプロジェクションにより、VAEベースの手法よりも多様なポーズを生成することができる。
論文 参考訳(メタデータ) (2022-07-27T21:46:47Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。