論文の概要: Exploring Latent Cross-Channel Embedding for Accurate 3D Human Pose
Reconstruction in a Diffusion Framework
- arxiv url: http://arxiv.org/abs/2401.09836v1
- Date: Thu, 18 Jan 2024 09:53:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 17:08:45.903265
- Title: Exploring Latent Cross-Channel Embedding for Accurate 3D Human Pose
Reconstruction in a Diffusion Framework
- Title(参考訳): 拡散フレームワークを用いた高精度3次元ポーズ再構成のための潜伏クロスチャネル埋め込みの検討
- Authors: Junkun Jiang and Jie Chen
- Abstract要約: 単眼の3次元ポーズ推定は、2Dから3Dへの再投射過程で生じる固有の深さの曖昧さによって重要な課題を提起する。
拡散モデルの最近の進歩は、再投射のあいまいさに対処するために構造的事前を組み込むことが約束されている。
本稿では,3次元座標の接合レベル特徴と2次元投影との相関関係の解明を目的とした,新しいクロスチャネル埋め込みフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.669850111205944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D human pose estimation poses significant challenges due to the
inherent depth ambiguities that arise during the reprojection process from 2D
to 3D. Conventional approaches that rely on estimating an over-fit projection
matrix struggle to effectively address these challenges and often result in
noisy outputs. Recent advancements in diffusion models have shown promise in
incorporating structural priors to address reprojection ambiguities. However,
there is still ample room for improvement as these methods often overlook the
exploration of correlation between the 2D and 3D joint-level features. In this
study, we propose a novel cross-channel embedding framework that aims to fully
explore the correlation between joint-level features of 3D coordinates and
their 2D projections. In addition, we introduce a context guidance mechanism to
facilitate the propagation of joint graph attention across latent channels
during the iterative diffusion process. To evaluate the effectiveness of our
proposed method, we conduct experiments on two benchmark datasets, namely
Human3.6M and MPI-INF-3DHP. Our results demonstrate a significant improvement
in terms of reconstruction accuracy compared to state-of-the-art methods. The
code for our method will be made available online for further reference.
- Abstract(参考訳): 単眼の3次元ポーズ推定は、2Dから3Dへの再投射過程において生じる深度あいまいさによって大きな課題を生じさせる。
オーバーフィットな投影行列の推定に依存する従来のアプローチは、これらの課題を効果的に解決するのに苦労し、しばしばノイズが発生する。
拡散モデルの最近の進歩は、再投射のあいまいさに対処するために構造的事前を組み込むことが約束されている。
しかし、2次元と3次元のジョイントレベルの特徴の相関をしばしば見落としているため、改善の余地は十分にある。
本研究では,3次元座標の接合レベル特徴と2次元投影との相関関係の解明を目的とした,新しいクロスチャネル埋め込みフレームワークを提案する。
さらに, 反復拡散過程において, 潜在チャネル間におけるジョイントグラフの注意の伝達を容易にするコンテキスト誘導機構を提案する。
提案手法の有効性を評価するため,Human3.6MとMPI-INF-3DHPという2つのベンチマークデータセットを用いて実験を行った。
その結果, 復元精度は最先端の手法に比べて有意に向上した。
私たちのメソッドのコードは、さらなる参照のためにオンラインで公開されます。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Learn to Optimize Denoising Scores for 3D Generation: A Unified and
Improved Diffusion Prior on NeRF and 3D Gaussian Splatting [60.393072253444934]
本稿では,3次元生成タスクの拡散先行性向上を目的とした統合フレームワークを提案する。
拡散先行と拡散モデルの訓練手順の相違を同定し、3次元生成の質を著しく損なう。
論文 参考訳(メタデータ) (2023-12-08T03:55:34Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - JOTR: 3D Joint Contrastive Learning with Transformers for Occluded Human
Mesh Recovery [84.67823511418334]
本稿では,3次元メッシュ復元のためのTRansformersフレームワークを用いた3次元ジョイントコントラスト学習について述べる。
提案手法は,2D$&$3D対応結果を得るために,2Dおよび3D表現を融合するエンコーダ・デコーダ変換器アーキテクチャを含む。
論文 参考訳(メタデータ) (2023-07-31T02:58:58Z) - Learning Scene Flow With Skeleton Guidance For 3D Action Recognition [1.5954459915735735]
本研究は3次元行動認識のための深部時間モデルによる3次元フローシーケンスの利用を実証する。
また、最も識別性の高い運動力学を学ぶために、拡張された深部骨格も導入されている。
高次クロスモーダル相関を学習する2つのモデルの間には,後期融合方式が採用されている。
論文 参考訳(メタデータ) (2023-06-23T04:14:25Z) - DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion
Probabilistic Model [25.223801390996435]
本稿では,1つの2次元キーポイント検出から3次元ポーズを再構築することに焦点を当てた。
我々は,市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。
我々は,広く採用されているHuman3.6MとHumanEva-Iデータセットについて評価を行った。
論文 参考訳(メタデータ) (2022-12-06T07:22:20Z) - (Fusionformer):Exploiting the Joint Motion Synergy with Fusion Network
Based On Transformer for 3D Human Pose Estimation [1.52292571922932]
多くの従来手法では、局所的な関節情報の理解が欠けていた。
提案手法では,グローバル・テンポラル・セルフ・トラジェクトリ・モジュールとクロス・テンポラル・セルフ・トラジェクトリ・モジュールを導入する。
その結果、Human3.6Mデータセットでは2.4%のMPJPEと4.3%のP-MPJPEが改善された。
論文 参考訳(メタデータ) (2022-10-08T12:22:10Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。