論文の概要: DreamPose3D: Hallucinative Diffusion with Prompt Learning for 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2511.09502v1
- Date: Thu, 13 Nov 2025 01:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.599394
- Title: DreamPose3D: Hallucinative Diffusion with Prompt Learning for 3D Human Pose Estimation
- Title(参考訳): DreamPose3D: Prompt Learningによる幻覚的拡散による3次元人文推定
- Authors: Jerrin Bright, Yuhao Chen, John S. Zelek,
- Abstract要約: 本研究では,3次元ポーズ推定のための行動認識推論と時間的想像力を組み合わせた拡散型フレームワークDreamPose3Dを紹介する。
DreamPose3Dは2次元ポーズシーケンスから抽出したタスク関連アクションプロンプトを用いて動的にデノナイズ処理を条件付け、ハイレベルなインテントをキャプチャする。
本研究では,関節間の構造的関係を効果的にモデル化するために,運動的関節親和性を注目機構に組み込んだ表現エンコーダを提案する。
幻覚的ポーズデコーダは、トレーニング中の時間的コヒーレントな3Dポーズを予測する。
- 参考スコア(独自算出の注目度): 18.240580699213197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate 3D human pose estimation remains a critical yet unresolved challenge, requiring both temporal coherence across frames and fine-grained modeling of joint relationships. However, most existing methods rely solely on geometric cues and predict each 3D pose independently, which limits their ability to resolve ambiguous motions and generalize to real-world scenarios. Inspired by how humans understand and anticipate motion, we introduce DreamPose3D, a diffusion-based framework that combines action-aware reasoning with temporal imagination for 3D pose estimation. DreamPose3D dynamically conditions the denoising process using task-relevant action prompts extracted from 2D pose sequences, capturing high-level intent. To model the structural relationships between joints effectively, we introduce a representation encoder that incorporates kinematic joint affinity into the attention mechanism. Finally, a hallucinative pose decoder predicts temporally coherent 3D pose sequences during training, simulating how humans mentally reconstruct motion trajectories to resolve ambiguity in perception. Extensive experiments on benchmarked Human3.6M and MPI-3DHP datasets demonstrate state-of-the-art performance across all metrics. To further validate DreamPose3D's robustness, we tested it on a broadcast baseball dataset, where it demonstrated strong performance despite ambiguous and noisy 2D inputs, effectively handling temporal consistency and intent-driven motion variations.
- Abstract(参考訳): 正確な3次元ポーズ推定は、フレーム間の時間的コヒーレンスと、関節関係のきめ細かいモデリングの両方を必要とするため、重要かつ未解決の課題である。
しかし、既存のほとんどの手法は幾何学的手がかりにのみ依存し、それぞれの3Dポーズを独立に予測し、不明瞭な動きを解決し、現実のシナリオに一般化する能力を制限する。
人間の動作の理解と予測の仕方から着想を得たDreamPose3Dは、行動認識推論と時間的想像力を組み合わせて3Dポーズ推定を行う拡散ベースのフレームワークである。
DreamPose3Dは2次元ポーズシーケンスから抽出したタスク関連アクションプロンプトを用いて動的にデノナイズ処理を条件付け、ハイレベルなインテントをキャプチャする。
本研究では,関節間の構造的関係を効果的にモデル化するために,運動的関節親和性を注目機構に組み込んだ表現エンコーダを提案する。
最後に、幻覚的ポーズデコーダは、トレーニング中に時間的にコヒーレントな3Dポーズシーケンスを予測する。
ベンチマークされたHuman3.6MとMPI-3DHPデータセットの大規模な実験は、すべてのメトリクスで最先端のパフォーマンスを示している。
さらに,DreamPose3Dの頑健性を検証するために,不明瞭でノイズの多い2D入力に対して強い性能を示し,時間的一貫性と意図駆動動作の変動を効果的に処理した。
関連論文リスト
- StarPose: 3D Human Pose Estimation via Spatial-Temporal Autoregressive Diffusion [29.682018018059043]
StarPoseは3次元人間のポーズ推定のための自己回帰拡散フレームワークである。
歴史的3Dポーズの予測と空間的物理的ガイダンスが組み込まれている。
人間の3次元ポーズ推定における精度と時間的一貫性を向上する。
論文 参考訳(メタデータ) (2025-08-04T04:50:05Z) - Lifting Motion to the 3D World via 2D Diffusion [19.64801640086107]
トレーニング用に2次元ポーズシーケンスのみを用いてグローバルな3次元動作を予測する新しいアプローチであるMVLiftを紹介する。
MVLiftは、人間のポーズ、人間とオブジェクトの相互作用、動物のポーズなど、さまざまな領域を一般化する。
論文 参考訳(メタデータ) (2024-11-27T23:26:56Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion
Modeling [83.76377808476039]
本研究では,人間のポーズの変形をモデル化し,それに伴う拡散に基づく動きを事前に設計する手法を提案する。
動作中の3次元人間の骨格を復元する作業は3次元基準骨格の推定に分割する。
混合時空間NASfMformerを用いて、各フレームの3次元基準骨格と骨格変形を2次元観測シーケンスから同時に推定する。
論文 参考訳(メタデータ) (2023-08-18T16:41:57Z) - Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。
既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。
頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T15:24:28Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。