論文の概要: Disentangled Diffusion-Based 3D Human Pose Estimation with Hierarchical
Spatial and Temporal Denoiser
- arxiv url: http://arxiv.org/abs/2403.04444v1
- Date: Thu, 7 Mar 2024 12:20:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:16:02.009643
- Title: Disentangled Diffusion-Based 3D Human Pose Estimation with Hierarchical
Spatial and Temporal Denoiser
- Title(参考訳): 階層型空間デノイザと時間デノイザを用いた遠方拡散に基づく3次元人物位置推定
- Authors: Qingyuan Cai, Xuecai Hu, Saihui Hou, Li Yao, Yongzhen Huang
- Abstract要約: 近年,3次元ポーズ推定のための拡散型手法が最先端(SOTA)性能を実現している。
階層型空間デノイザとテンポラルデノイザを用いた遠方拡散に基づく3次元人文推定法を提案する。
- 参考スコア(独自算出の注目度): 9.397152006395176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, diffusion-based methods for monocular 3D human pose estimation have
achieved state-of-the-art (SOTA) performance by directly regressing the 3D
joint coordinates from the 2D pose sequence. Although some methods decompose
the task into bone length and bone direction prediction based on the human
anatomical skeleton to explicitly incorporate more human body prior
constraints, the performance of these methods is significantly lower than that
of the SOTA diffusion-based methods. This can be attributed to the tree
structure of the human skeleton. Direct application of the disentangled method
could amplify the accumulation of hierarchical errors, propagating through each
hierarchy. Meanwhile, the hierarchical information has not been fully explored
by the previous methods. To address these problems, a Disentangled
Diffusion-based 3D Human Pose Estimation method with Hierarchical Spatial and
Temporal Denoiser is proposed, termed DDHPose. In our approach: (1) We
disentangle the 3D pose and diffuse the bone length and bone direction during
the forward process of the diffusion model to effectively model the human pose
prior. A disentanglement loss is proposed to supervise diffusion model
learning. (2) For the reverse process, we propose Hierarchical Spatial and
Temporal Denoiser (HSTDenoiser) to improve the hierarchical modeling of each
joint. Our HSTDenoiser comprises two components: the Hierarchical-Related
Spatial Transformer (HRST) and the Hierarchical-Related Temporal Transformer
(HRTT). HRST exploits joint spatial information and the influence of the parent
joint on each joint for spatial modeling, while HRTT utilizes information from
both the joint and its hierarchical adjacent joints to explore the hierarchical
temporal correlations among joints.
- Abstract(参考訳): 近年,2次元ポーズシーケンスから3次元関節座標を直接回帰することにより,モノクル3次元ポーズ推定のための拡散法が最先端(SOTA)性能を達成した。
ヒトの解剖学的骨格に基づく骨の長さと骨方向の予測に分解して、より人体の事前制約を明示的に組み込む方法もいくつかあるが、これらの手法の性能はsota拡散に基づく方法よりもかなり低い。
これはヒトの骨格の木の構造に起因していると考えられる。
disentangledメソッドの直接適用は、階層的なエラーの蓄積を増幅し、各階層に伝播する。
一方,階層的情報は,従来の手法では十分に検討されていない。
これらの問題に対処するために, DDHPose と呼ばれる階層的空間と時間的デノイザを用いた遠方拡散に基づく3次元人文推定法を提案する。
提案手法では,(1)3次元ポーズを分離し,拡散モデルの進行過程中に骨長と骨方向を拡散させ,前者のポーズを効果的にモデル化する。
拡散モデル学習を監督するために, ゆがみ損失を提案する。
2) 逆過程に対して, 階層的空間的および時間的デノイザー (hstdenoiser) を提案し, それぞれの関節の階層的モデリングを改善する。
HSTDenoiserは階層型空間変換器(HRST)と階層型時間変換器(HRTT)の2つのコンポーネントから構成される。
HRSTは各関節の空間的情報と親関節の影響を利用して空間的モデリングを行う一方、HRTTは関節とその隣接した関節からの情報を用いて関節間の階層的時間的相関を探索する。
関連論文リスト
- DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。
提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文 参考訳(メタデータ) (2024-11-16T03:52:23Z) - Enhancing 3D Human Pose Estimation Amidst Severe Occlusion with Dual Transformer Fusion [13.938406073551844]
本稿では,DTF(Dual Transformer Fusion)アルゴリズムを提案する。
正確な3Dヒューマンポース推定を実現するために,本手法では,まず2つの中間ビューを生成する革新的なDTFアーキテクチャを利用する。
このアプローチは、両方のデータセットで既存の最先端メソッドよりも優れており、大幅に改善されています。
論文 参考訳(メタデータ) (2024-10-06T18:15:27Z) - Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion
Modeling [83.76377808476039]
本研究では,人間のポーズの変形をモデル化し,それに伴う拡散に基づく動きを事前に設計する手法を提案する。
動作中の3次元人間の骨格を復元する作業は3次元基準骨格の推定に分割する。
混合時空間NASfMformerを用いて、各フレームの3次元基準骨格と骨格変形を2次元観測シーケンスから同時に推定する。
論文 参考訳(メタデータ) (2023-08-18T16:41:57Z) - HTNet: Human Topology Aware Network for 3D Human Pose Estimation [12.120648336697592]
人間の3次元ポーズ推定誤差は、人体トポロジーに沿って伝播し、手足の端関節に蓄積する。
本研究では,部分レベルでの終端継手に対する位相的制約を構築するための参照として,親ノードを利用する内部制約モジュールを設計する。
本稿では,HTNet(Human Topology aware Network)を提案する。
論文 参考訳(メタデータ) (2023-02-20T06:31:29Z) - Pose-Oriented Transformer with Uncertainty-Guided Refinement for
2D-to-3D Human Pose Estimation [51.00725889172323]
本研究では,3次元ポーズ推定のための不確実性ガイド付き多目的変換器(POT)を提案する。
我々はまず,人骨のトポロジーを明示的に活用するために,新しいポーズ指向の自己注意機構と距離関連位置埋め込みを開発した。
本稿では,特に難解な関節に対するPOTからのポーズ予測を洗練させるために,不確実性誘導型リファインメントネットワーク(UGRN)を提案する。
論文 参考訳(メタデータ) (2023-02-15T00:22:02Z) - (Fusionformer):Exploiting the Joint Motion Synergy with Fusion Network
Based On Transformer for 3D Human Pose Estimation [1.52292571922932]
多くの従来手法では、局所的な関節情報の理解が欠けていた。
提案手法では,グローバル・テンポラル・セルフ・トラジェクトリ・モジュールとクロス・テンポラル・セルフ・トラジェクトリ・モジュールを導入する。
その結果、Human3.6Mデータセットでは2.4%のMPJPEと4.3%のP-MPJPEが改善された。
論文 参考訳(メタデータ) (2022-10-08T12:22:10Z) - Higher-Order Implicit Fairing Networks for 3D Human Pose Estimation [1.1501261942096426]
2次元から3次元のポーズ推定のための初期残差接続を持つ高階グラフ畳み込みフレームワークを提案する。
我々のモデルは、体節間の長距離依存関係を捉えることができる。
2つの標準ベンチマークで行った実験と改善研究は、我々のモデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-11-01T13:48:55Z) - HMOR: Hierarchical Multi-Person Ordinal Relations for Monocular
Multi-Person 3D Pose Estimation [54.23770284299979]
本稿では, 階層型多人数常連関係(HMOR)を新たに導入する。
HMORは相互作用情報を階層的に深さと角度の順序関係として符号化する。
統合トップダウンモデルは、学習プロセスにおけるこれらの順序関係を活用するように設計されている。
提案手法は, 公開されている多人数の3Dポーズデータセットにおいて, 最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-08-01T07:53:27Z) - MotioNet: 3D Human Motion Reconstruction from Monocular Video with
Skeleton Consistency [72.82534577726334]
モノクロビデオから3次元人間の骨格の動きを直接再構成するディープニューラルネットワークであるMotioNetを紹介した。
本手法は,動作表現を完全かつ一般的に使用するキネマティックスケルトンを直接出力する最初のデータ駆動型手法である。
論文 参考訳(メタデータ) (2020-06-22T08:50:09Z) - Anatomy-aware 3D Human Pose Estimation with Bone-based Pose
Decomposition [92.99291528676021]
3次元関節位置を直接回帰するのではなく,骨方向予測と骨長予測に分解する。
私たちのモチベーションは、人間の骨格の骨の長さが時間とともに一定であることにあります。
我々の完全なモデルは、Human3.6MとMPI-INF-3DHPデータセットにおいて、以前の最高の結果よりも優れています。
論文 参考訳(メタデータ) (2020-02-24T15:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。