論文の概要: Back to Optimization: Diffusion-based Zero-Shot 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2307.03833v3
- Date: Tue, 24 Oct 2023 20:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 20:09:57.167162
- Title: Back to Optimization: Diffusion-based Zero-Shot 3D Human Pose Estimation
- Title(参考訳): back to optimization:拡散に基づくゼロショット3次元ポーズ推定
- Authors: Zhongyu Jiang, Zhuoran Zhou, Lei Li, Wenhao Chai, Cheng-Yen Yang,
Jenq-Neng Hwang
- Abstract要約: 学習に基づく手法は、従来の最適化に基づく手法よりも多くのベンチマークにおいて非常に優れた性能を持つ3Dヒューマンポーズ推定(HPE)タスクを支配している。
我々は3次元HPEのためのtextbfZero-shot textbfDiffusion-based textbfOptimization (textbfZeDO) パイプラインを提案する。
われわれはHuman3.6Mにおける最先端(SOTA)のパフォーマンスをminMPJPE$51.4$で達成している。
- 参考スコア(独自算出の注目度): 29.037799937729687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based methods have dominated the 3D human pose estimation (HPE)
tasks with significantly better performance in most benchmarks than traditional
optimization-based methods. Nonetheless, 3D HPE in the wild is still the
biggest challenge for learning-based models, whether with 2D-3D lifting,
image-to-3D, or diffusion-based methods, since the trained networks implicitly
learn camera intrinsic parameters and domain-based 3D human pose distributions
and estimate poses by statistical average. On the other hand, the
optimization-based methods estimate results case-by-case, which can predict
more diverse and sophisticated human poses in the wild. By combining the
advantages of optimization-based and learning-based methods, we propose the
\textbf{Ze}ro-shot \textbf{D}iffusion-based \textbf{O}ptimization
(\textbf{ZeDO}) pipeline for 3D HPE to solve the problem of cross-domain and
in-the-wild 3D HPE. Our multi-hypothesis \textit{\textbf{ZeDO}} achieves
state-of-the-art (SOTA) performance on Human3.6M, with minMPJPE $51.4$mm,
without training with any 2D-3D or image-3D pairs. Moreover, our
single-hypothesis \textit{\textbf{ZeDO}} achieves SOTA performance on 3DPW
dataset with PA-MPJPE $40.3$mm on cross-dataset evaluation, which even
outperforms learning-based methods trained on 3DPW.
- Abstract(参考訳): 学習に基づく手法は、従来の最適化に基づく手法よりも多くのベンチマークにおいて非常に優れた性能を持つ3Dヒューマンポーズ推定(HPE)タスクを支配している。
それにもかかわらず、訓練されたネットワークは暗黙的にカメラ固有のパラメータとドメインベースの人間のポーズの分布と統計平均による推定ポーズを学習するため、2D-3Dリフト、画像から3D、あるいは拡散ベースの方法で学習ベースのモデルにとって、野生の3D HPEは依然として最大の課題である。
一方、最適化に基づく手法は、より多様で洗練された人間のポーズを予測することができるケース・バイ・ケースを推定する。
最適化と学習に基づく手法の利点を組み合わせることで、3D HPEの3次元 HPE に対する \textbf{Ze}ro-shot \textbf{D}iffusion-based \textbf{O}ptimization (\textbf{ZeDO}) パイプラインを提案する。
当社のマルチハイポテーゼである \textit{\textbf{zedo}} は、人間3.6mの最先端(sota)性能を実現し、minmpjpeは51.4$mmで、2d-3dまたはimage-3dペアのトレーニングを行わない。
さらに,我々の単一仮説であるtextit{\textbf{ZeDO}} は,PA-MPJPE 40.3$mm の 3DPW データセット上での SOTA 性能を達成している。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Uncertainty-Aware Testing-Time Optimization for 3D Human Pose Estimation [68.75387874066647]
本研究では3次元ポーズ推定のための不確実性認識テスト時間最適化フレームワークを提案する。
我々のアプローチは、Human3.6Mの4.5%という大きなマージンで、過去最高の結果を上回っている。
論文 参考訳(メタデータ) (2024-02-04T04:28:02Z) - 3D-Aware Neural Body Fitting for Occlusion Robust 3D Human Pose
Estimation [28.24765523800196]
本研究では,3次元ポーズ推定のための3次元認識型ニューラルボディフィッティング(3DNBF)を提案する。
特に,3次元ポーズ依存特徴ベクトルを出力するガウス楕円体カーネルを用いた人間の体積表現に基づく深部特徴の生成モデルを提案する。
ニューラル特徴は、対照的な学習で訓練され、3D認識となり、2D-3D曖昧さを克服する。
論文 参考訳(メタデータ) (2023-08-19T22:41:00Z) - Diffusion-Based 3D Human Pose Estimation with Multi-Hypothesis
Aggregation [64.874000550443]
ジョイントワイズ・リジェクション・ベース・マルチハイブリッド・アグリゲーション(JPMA)を用いた拡散型3次元ポス推定法を提案する。
提案したJPMAは,D3DPが生成する複数の仮説を1つの3次元ポーズにまとめて実用的に利用する。
提案手法は, 最先端の決定論的アプローチと確率論的アプローチをそれぞれ1.5%, 8.9%上回った。
論文 参考訳(メタデータ) (2023-03-21T04:00:47Z) - AdaptPose: Cross-Dataset Adaptation for 3D Human Pose Estimation by
Learnable Motion Generation [24.009674750548303]
トレーニング済みの3Dポーズ推定器を新しいデータセットでテストすると、大きなパフォーマンス低下が発生する。
本稿では、ソースデータセットから合成された3次元人間の動きを生成するエンドツーエンドフレームワークであるAdaptPoseを提案する。
提案手法は, 部分的な3Dアノテーションを用いた半教師あり学習法を16%, クロスデータセット評価において14%, 従来の半教師あり学習法よりも16%優れていた。
論文 参考訳(メタデータ) (2021-12-22T00:27:52Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。