論文の概要: StarPose: 3D Human Pose Estimation via Spatial-Temporal Autoregressive Diffusion
- arxiv url: http://arxiv.org/abs/2508.02056v1
- Date: Mon, 04 Aug 2025 04:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.178818
- Title: StarPose: 3D Human Pose Estimation via Spatial-Temporal Autoregressive Diffusion
- Title(参考訳): StarPose:時空間自己回帰拡散による3次元人物位置推定
- Authors: Haoxin Yang, Weihong Chen, Xuemiao Xu, Cheng Xu, Peng Xiao, Cuifeng Sun, Shaoyu Huang, Shengfeng He,
- Abstract要約: StarPoseは3次元人間のポーズ推定のための自己回帰拡散フレームワークである。
歴史的3Dポーズの予測と空間的物理的ガイダンスが組み込まれている。
人間の3次元ポーズ推定における精度と時間的一貫性を向上する。
- 参考スコア(独自算出の注目度): 29.682018018059043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular 3D human pose estimation remains a challenging task due to inherent depth ambiguities and occlusions. Compared to traditional methods based on Transformers or Convolutional Neural Networks (CNNs), recent diffusion-based approaches have shown superior performance, leveraging their probabilistic nature and high-fidelity generation capabilities. However, these methods often fail to account for the spatial and temporal correlations across predicted frames, resulting in limited temporal consistency and inferior accuracy in predicted 3D pose sequences. To address these shortcomings, this paper proposes StarPose, an autoregressive diffusion framework that effectively incorporates historical 3D pose predictions and spatial-temporal physical guidance to significantly enhance both the accuracy and temporal coherence of pose predictions. Unlike existing approaches, StarPose models the 2D-to-3D pose mapping as an autoregressive diffusion process. By synergically integrating previously predicted 3D poses with 2D pose inputs via a Historical Pose Integration Module (HPIM), the framework generates rich and informative historical pose embeddings that guide subsequent denoising steps, ensuring temporally consistent predictions. In addition, a fully plug-and-play Spatial-Temporal Physical Guidance (STPG) mechanism is tailored to refine the denoising process in an iterative manner, which further enforces spatial anatomical plausibility and temporal motion dynamics, rendering robust and realistic pose estimates. Extensive experiments on benchmark datasets demonstrate that StarPose outperforms state-of-the-art methods, achieving superior accuracy and temporal consistency in 3D human pose estimation. Code is available at https://github.com/wileychan/StarPose.
- Abstract(参考訳): 単眼的な3次元ポーズ推定は、固有の深さのあいまいさと閉塞性のため、依然として難しい課題である。
トランスフォーマーや畳み込みニューラルネットワーク(CNN)に基づく従来の手法と比較して、近年の拡散ベースのアプローチは、その確率的性質と高忠実度生成能力を活用して、優れたパフォーマンスを示している。
しかし、これらの手法は、予測されたフレーム間の空間的および時間的相関を考慮できないことが多く、予測された3次元ポーズシーケンスの時間的一貫性と低い精度をもたらす。
本稿では,従来の3次元ポーズ予測と空間的物理的ガイダンスを効果的に組み込んだ自己回帰拡散フレームワークであるStarPoseを提案し,ポーズ予測の精度と時間的コヒーレンスを大幅に向上させる。
既存のアプローチとは異なり、StarPoseは2D-to-3Dのポーズマッピングを自己回帰拡散プロセスとしてモデル化している。
従来予測されていた3Dポーズと2Dポーズ入力をHPIM (History Pose Integration Module) を通じて相乗的に統合することにより、このフレームワークはより豊かで情報に富んだ歴史的なポーズ埋め込みを生成し、その後のデノゲーションステップをガイドし、時間的に一貫した予測を保証する。
さらに、完全にプラグ&プレイされた空間的物理的誘導(STPG)機構は、空間的解剖学的妥当性と時間的動きのダイナミクスをさらに強化し、堅牢で現実的なポーズ推定をレンダリングする反復的な方法でデノナイジングプロセスを洗練するように調整されている。
ベンチマークデータセットの大規模な実験により、StarPoseは最先端の手法より優れており、3Dのポーズ推定において精度と時間的一貫性が優れていることが示されている。
コードはhttps://github.com/wileychan/StarPose.comで入手できる。
関連論文リスト
- EMoTive: Event-guided Trajectory Modeling for 3D Motion Estimation [59.33052312107478]
イベントカメラは、シーン変化に対する連続的適応ピクセルレベル応答による3次元モーション推定の可能性を提供する。
本稿では,イベント誘導パラメトリック曲線を用いた一様軌道をモデル化するイベントベースフレームワークであるEMoveについて述べる。
動作表現には,事象誘導下での空間的特徴と時間的特徴を融合する密度認識適応機構を導入する。
最終3次元運動推定は、パラメトリック軌道、流れ、深度運動場の多時間サンプリングによって達成される。
論文 参考訳(メタデータ) (2025-03-14T13:15:54Z) - STGFormer: Spatio-Temporal GraphFormer for 3D Human Pose Estimation in Video [7.345621536750547]
本稿では,ビデオ中の3次元ポーズ推定のためのS-Temporal GraphFormerフレームワーク(STGFormer)を提案する。
まず,人体固有のグラフ分布をより効果的に活用するためのSTGアテンション機構を導入する。
次に、時間次元と空間次元を独立に並列に処理するための変調ホップワイド正規GCNを提案する。
最後に,Human3.6MおよびMPIINF-3DHPデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-07-14T06:45:27Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - STRIDE: Single-video based Temporally Continuous Occlusion-Robust 3D Pose Estimation [27.854074900345314]
本研究では,STIDE (Single-video based TempoRally contInuous Occlusion-Robust 3D Estimation Pose) を提案する。
筆者らのフレームワークは,モデルに依存しない柔軟性を示し,既製の3Dポーズ推定手法を用いて,堅牢性と時間的整合性を向上させる。
論文 参考訳(メタデータ) (2023-12-24T11:05:10Z) - Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion
Modeling [83.76377808476039]
本研究では,人間のポーズの変形をモデル化し,それに伴う拡散に基づく動きを事前に設計する手法を提案する。
動作中の3次元人間の骨格を復元する作業は3次元基準骨格の推定に分割する。
混合時空間NASfMformerを用いて、各フレームの3次元基準骨格と骨格変形を2次元観測シーケンスから同時に推定する。
論文 参考訳(メタデータ) (2023-08-18T16:41:57Z) - A generic diffusion-based approach for 3D human pose prediction in the
wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。
本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。
本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-10-11T17:59:54Z) - Live Stream Temporally Embedded 3D Human Body Pose and Shape Estimation [13.40702053084305]
ライブストリーム映像の精度と時間的整合性を改善するために,時間的に埋め込まれた3次元人体ポーズと形状推定法(TePose)を提案する。
マルチスケールの畳み込みネットワークを,3次元ラベリングを伴わないデータセットを用いた対人訓練のための運動判別器として提示する。
論文 参考訳(メタデータ) (2022-07-25T21:21:59Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。
提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。
最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文 参考訳(メタデータ) (2020-06-19T17:28:07Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。