論文の概要: Denoising Diffusion for 3D Hand Pose Estimation from Images
- arxiv url: http://arxiv.org/abs/2308.09523v1
- Date: Fri, 18 Aug 2023 12:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 13:07:08.836249
- Title: Denoising Diffusion for 3D Hand Pose Estimation from Images
- Title(参考訳): 画像からの3次元手ポーズ推定のための消音拡散
- Authors: Maksym Ivashechkin, Oscar Mendez, Richard Bowden
- Abstract要約: 本稿では,モノクロ画像やシーケンスからの3次元手ポーズ推定の問題に対処する。
本稿では,3次元ハンドレグレッションのための新しいエンド・ツー・エンド・エンド・フレームワークを提案する。
提案モデルは,2次元の片手画像を3Dに持ち上げる際に,最先端の性能を提供する。
- 参考スコア(独自算出の注目度): 38.20064386142944
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hand pose estimation from a single image has many applications. However,
approaches to full 3D body pose estimation are typically trained on day-to-day
activities or actions. As such, detailed hand-to-hand interactions are poorly
represented, especially during motion. We see this in the failure cases of
techniques such as OpenPose or MediaPipe. However, accurate hand pose
estimation is crucial for many applications where the global body motion is
less important than accurate hand pose estimation.
This paper addresses the problem of 3D hand pose estimation from monocular
images or sequences. We present a novel end-to-end framework for 3D hand
regression that employs diffusion models that have shown excellent ability to
capture the distribution of data for generative purposes. Moreover, we enforce
kinematic constraints to ensure realistic poses are generated by incorporating
an explicit forward kinematic layer as part of the network. The proposed model
provides state-of-the-art performance when lifting a 2D single-hand image to
3D. However, when sequence data is available, we add a Transformer module over
a temporal window of consecutive frames to refine the results, overcoming
jittering and further increasing accuracy.
The method is quantitatively and qualitatively evaluated showing
state-of-the-art robustness, generalization, and accuracy on several different
datasets.
- Abstract(参考訳): 単一画像からのポーズ推定には多くの応用がある。
しかし、フル3Dボディポーズ推定へのアプローチは通常、日々の活動や行動に基づいて訓練される。
このように、特に運動中は、詳細な手と手との相互作用があまり表現されていない。
これはOpenPoseやMediaPipeといったテクニックの失敗例で見られます。
しかし、正確なハンドポーズ推定は、正確なハンドポーズ推定よりもグローバルな身体運動が重要でない多くのアプリケーションにとって重要である。
本稿では,モノクロ画像やシーケンスからの3次元手ポーズ推定の問題に対処する。
本稿では,3次元ハンドレグレッションのための新しいエンドツーエンドフレームワークを提案する。
さらに,ネットワークの一部として明示的なフォワードキネマティック層を組み込むことにより,現実的なポーズが生成されるように,キネマティックな制約を強制する。
提案モデルは,2次元の片手画像を3Dに持ち上げる際に,最先端の性能を提供する。
しかし、シーケンスデータが利用可能であれば、連続フレームの時間ウィンドウ上にTransformerモジュールを追加して結果を洗練し、ジッタリングを克服し、精度をさらに高める。
この方法は、複数の異なるデータセットに対して、最先端のロバスト性、一般化、精度を示す定量的に定性的に評価される。
関連論文リスト
- UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point Cloud [60.47544798202017]
ハンドポーズ推定は、様々な人間とコンピュータの相互作用アプリケーションにおいて重要なタスクである。
本論文は,手形画像点雲上での正確な手ポーズを反復的に認知する拡散型手ポーズ推定モデルであるHandDiffを提案する。
実験の結果,提案したHandDiffは,4つの挑戦的なハンドポーズベンチマークデータセットにおいて,既存のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-04T02:15:16Z) - D3PRefiner: A Diffusion-based Denoise Method for 3D Human Pose
Refinement [3.514184876338779]
拡散型3次元ポース・リファイナは既存の3次元ポーズ推定器の出力を改良するために提案される。
現在の拡散モデルのアーキテクチャを利用して、ノイズの多い3Dポーズの分布を3Dポーズに変換する。
実験により,提案アーキテクチャは,現在の3次元ポーズ推定器の性能を大幅に向上させることができることを示した。
論文 参考訳(メタデータ) (2024-01-08T14:21:02Z) - Self-Supervised 3D Hand Pose Estimation from monocular RGB via
Contrastive Learning [50.007445752513625]
本稿では,3次元ポーズ推定における構造化回帰タスクに対する自己教師付き手法を提案する。
我々は、不変および同変のコントラスト目的の影響を実験的に検討した。
追加のラベル付きデータに基づいてトレーニングされた標準のResNet-152が、FreiHAND上のPA-EPEで7.6%の改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T17:48:57Z) - SeqHAND:RGB-Sequence-Based 3D Hand Pose and Shape Estimation [48.456638103309544]
RGB画像に基づく3次元手ポーズ推定は長い間研究されてきた。
本研究では,人間の手の動きを模倣する合成データセットを生成する手法を提案する。
本研究では,3次元ポーズ推定における時間情報の利用により,一般的なポーズ推定が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-07-10T05:11:14Z) - Leveraging Photometric Consistency over Time for Sparsely Supervised
Hand-Object Reconstruction [118.21363599332493]
本稿では,ビデオ中のフレームの粗いサブセットに対してのみアノテーションが利用できる場合に,時間とともに光度整合性を活用する手法を提案する。
本モデルでは,ポーズを推定することにより,手や物体を3Dで共同で再構成するカラーイメージをエンドツーエンドに訓練する。
提案手法は,3次元手動画像再構成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-04-28T12:03:14Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。