論文の概要: FinePOSE: Fine-Grained Prompt-Driven 3D Human Pose Estimation via Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.05216v1
- Date: Wed, 8 May 2024 17:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 13:55:22.239217
- Title: FinePOSE: Fine-Grained Prompt-Driven 3D Human Pose Estimation via Diffusion Models
- Title(参考訳): FinePOSE:拡散モデルによる微粒プロンプト駆動型3次元人物位置推定
- Authors: Jinglin Xu, Yijie Guo, Yuxin Peng,
- Abstract要約: 3Dヒューマンポース推定タスクは、3D空間における人間の関節座標を予測するために2D画像またはビデオを使用する。
我々は3次元HPEの拡散モデルに基づくファイングレードプロンプト駆動型デノイザ(textbfFinePOSE)を提案する。
拡散モデルの逆過程を強化する3つのコアブロックから構成される。
公開シングルヒューマンポーズデータセットの実験では、FinePOSEが最先端の手法より優れていることが示されている。
- 参考スコア(独自算出の注目度): 40.966197115577344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The 3D Human Pose Estimation (3D HPE) task uses 2D images or videos to predict human joint coordinates in 3D space. Despite recent advancements in deep learning-based methods, they mostly ignore the capability of coupling accessible texts and naturally feasible knowledge of humans, missing out on valuable implicit supervision to guide the 3D HPE task. Moreover, previous efforts often study this task from the perspective of the whole human body, neglecting fine-grained guidance hidden in different body parts. To this end, we present a new Fine-Grained Prompt-Driven Denoiser based on a diffusion model for 3D HPE, named \textbf{FinePOSE}. It consists of three core blocks enhancing the reverse process of the diffusion model: (1) Fine-grained Part-aware Prompt learning (FPP) block constructs fine-grained part-aware prompts via coupling accessible texts and naturally feasible knowledge of body parts with learnable prompts to model implicit guidance. (2) Fine-grained Prompt-pose Communication (FPC) block establishes fine-grained communications between learned part-aware prompts and poses to improve the denoising quality. (3) Prompt-driven Timestamp Stylization (PTS) block integrates learned prompt embedding and temporal information related to the noise level to enable adaptive adjustment at each denoising step. Extensive experiments on public single-human pose estimation datasets show that FinePOSE outperforms state-of-the-art methods. We further extend FinePOSE to multi-human pose estimation. Achieving 34.3mm average MPJPE on the EgoHumans dataset demonstrates the potential of FinePOSE to deal with complex multi-human scenarios. Code is available at https://github.com/PKU-ICST-MIPL/FinePOSE_CVPR2024.
- Abstract(参考訳): 3Dヒューマンポース推定(3D HPE)タスクは、3D空間における人間の関節座標を予測するために2D画像またはビデオを使用する。
近年のディープラーニングベースの手法の進歩にもかかわらず、彼らはアクセス可能なテキストと自然に実現可能な人間の知識を結合する能力をほとんど無視し、3D HPEタスクを導くための貴重な暗黙の監督を欠いている。
さらに、従来の取り組みでは、このタスクを人体全体の観点から研究し、異なる部位に隠されたきめ細かいガイダンスを無視することが多かった。
この目的のために,3次元HPEの拡散モデルに基づくファイングラインド・プロンプト駆動型デノイザを提案し,その名称を「textbf{FinePOSE}」とした。
1) 微粒な部分認識プロンプト学習(FPP)ブロックは、結合可能なテキストと、暗黙的なガイダンスをモデル化するための学習可能なプロンプトを持つ身体部分の自然に実現可能な知識を介して、きめ細かな部分認識プロンプトを構成する。
2) きめ細かいPrompt-pose Communication(FPC)ブロックは,学習したパートアウェアプロンプト間のきめ細かなコミュニケーションを確立し,デノナイジング品質の向上を図る。
3) プロンプト駆動型タイムスタンプスタイライズ(PTS)ブロックは,ノイズレベルに関連する学習した即時埋め込みと時間情報を統合し,各デノナイジングステップにおける適応調整を実現する。
パブリックな単一人のポーズ推定データセットに対する大規模な実験は、FinePOSEが最先端の手法より優れていることを示している。
我々はさらにFinePOSEを多人数のポーズ推定に拡張する。
EgoHumansデータセット上で平均34.3mmのMPJPEを取得することで、FinPOSEが複雑なマルチヒューマンシナリオに対処する可能性を実証することができる。
コードはhttps://github.com/PKU-ICST-MIPL/FinePOSE_CVPR2024で公開されている。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - UniHPE: Towards Unified Human Pose Estimation via Contrastive Learning [29.037799937729687]
2次元と3次元の人間の姿勢推定(HPE)はコンピュータビジョンにおける2つの重要な知覚的タスクである。
提案するUniHPEは,3つのモードの全ての特徴を整列する,統一されたヒューマンポーズ推定パイプラインである。
提案手法は,コンピュータビジョンの分野を前進させ,様々な応用に寄与する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-24T21:55:34Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding [42.04502185508723]
本稿では,3次元部分レベルの可読性と把握能力学習を促進するために,言語誘導型SHape grAsPingデータを提案する。
ロボット認知の観点から、我々は2段階のきめ細かいロボット把握フレームワーク(LangPartGPD)を設計する。
我々の手法は、人間とロボットの協調と大規模言語モデル(LLM)の利点を組み合わせたものである。
提案手法は,3次元形状のきめ細かな接地,オブジェクトの空き度推定,および3次元部分認識把握タスクにおいて,競争性能を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-27T07:00:54Z) - DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion
Probabilistic Model [25.223801390996435]
本稿では,1つの2次元キーポイント検出から3次元ポーズを再構築することに焦点を当てた。
我々は,市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。
我々は,広く採用されているHuman3.6MとHumanEva-Iデータセットについて評価を行った。
論文 参考訳(メタデータ) (2022-12-06T07:22:20Z) - KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D
Correspondences [77.56222946832237]
画像中の複数の人物の密着度を検出するための新しい枠組みを提案する。
提案手法は知識伝達ネットワーク(KTN)の2つの問題に対処する。
特徴解像度を同時に維持し、背景画素を抑圧し、この戦略は精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-06-21T03:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。