論文の概要: Direction-Aware Hybrid Representation Learning for 3D Hand Pose and Shape Estimation
- arxiv url: http://arxiv.org/abs/2504.01298v2
- Date: Thu, 03 Apr 2025 07:52:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:46.788539
- Title: Direction-Aware Hybrid Representation Learning for 3D Hand Pose and Shape Estimation
- Title(参考訳): 3次元ハンドポースの方向認識型ハイブリッド表現学習と形状推定
- Authors: Shiyong Liu, Zhihao Li, Xiao Tang, Jianzhuang Liu,
- Abstract要約: 暗黙的な画像特徴と明示的な2次元共同座標特徴を融合する学習方向対応ハイブリッド特徴(DaHyF)を提案する。
提案手法は,DAHyF表現による3次元手振りを直接予測し,コントラスト学習に基づく予測信頼度を用いて,モーションキャプチャ時のジッタリングを低減する。
- 参考スコア(独自算出の注目度): 41.96019347138128
- License:
- Abstract: Most model-based 3D hand pose and shape estimation methods directly regress the parametric model parameters from an image to obtain 3D joints under weak supervision. However, these methods involve solving a complex optimization problem with many local minima, making training difficult. To address this challenge, we propose learning direction-aware hybrid features (DaHyF) that fuse implicit image features and explicit 2D joint coordinate features. This fusion is enhanced by the pixel direction information in the camera coordinate system to estimate pose, shape, and camera viewpoint. Our method directly predicts 3D hand poses with DaHyF representation and reduces jittering during motion capture using prediction confidence based on contrastive learning. We evaluate our method on the FreiHAND dataset and show that it outperforms existing state-of-the-art methods by more than 33% in accuracy. DaHyF also achieves the top ranking on both the HO3Dv2 and HO3Dv3 leaderboards for the metric of Mean Joint Error (after scale and translation alignment). Compared to the second-best results, the largest improvement observed is 10%. We also demonstrate its effectiveness in real-time motion capture scenarios with hand position variability, occlusion, and motion blur.
- Abstract(参考訳): 多くのモデルベース3Dハンドポーズと形状推定手法は、画像からパラメトリックモデルパラメータを直接回帰し、弱い監督下で3D関節を得る。
しかし、これらの手法は、多くの局所ミニマで複雑な最適化問題を解くことを含み、訓練を困難にしている。
この課題に対処するため、暗黙的な画像特徴と明示的な2次元関節座標特徴を融合する学習方向対応ハイブリッド機能(DaHyF)を提案する。
この融合は、カメラ座標系における画素方向情報により強化され、ポーズ、形状、カメラ視点を推定する。
提案手法は,DAHyF表現による3次元手振りを直接予測し,コントラスト学習に基づく予測信頼度を用いて,モーションキャプチャ時のジッタリングを低減する。
提案手法をFreiHANDデータセット上で評価し,既存の最先端手法よりも33%以上精度が高いことを示す。
DaHyFはHO3Dv2とHO3Dv3の両方のリーダーボードで平均関節誤差(スケールと変換アライメント後の)の指標で上位にランクインしている。
2番目の結果と比較すると、最も大きな改善は10%である。
また,手の位置可変性,閉塞性,動きのぼやけを有するリアルタイムモーションキャプチャーのシナリオにおいても,その効果が示された。
関連論文リスト
- SCIPaD: Incorporating Spatial Clues into Unsupervised Pose-Depth Joint Learning [17.99904937160487]
本研究では,教師なし深層学習のための空間的手がかりを取り入れた新しいアプローチであるSCIPaDを紹介する。
SCIPaDは平均翻訳誤差22.2%、カメラポーズ推定タスクの平均角誤差34.8%をKITTI Odometryデータセットで達成している。
論文 参考訳(メタデータ) (2024-07-07T06:52:51Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - HandDiff: 3D Hand Pose Estimation with Diffusion on Image-Point Cloud [60.47544798202017]
ハンドポーズ推定は、様々な人間とコンピュータの相互作用アプリケーションにおいて重要なタスクである。
本論文は,手形画像点雲上での正確な手ポーズを反復的に認知する拡散型手ポーズ推定モデルであるHandDiffを提案する。
実験の結果,提案したHandDiffは,4つの挑戦的なハンドポーズベンチマークデータセットにおいて,既存のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-04T02:15:16Z) - Back to Optimization: Diffusion-based Zero-Shot 3D Human Pose Estimation [29.037799937729687]
学習に基づく手法は、従来の最適化に基づく手法よりも多くのベンチマークにおいて非常に優れた性能を持つ3Dヒューマンポーズ推定(HPE)タスクを支配している。
我々は3次元HPEのためのtextbfZero-shot textbfDiffusion-based textbfOptimization (textbfZeDO) パイプラインを提案する。
われわれはHuman3.6Mにおける最先端(SOTA)のパフォーマンスをminMPJPE$51.4$で達成している。
論文 参考訳(メタデータ) (2023-07-07T21:03:18Z) - LFM-3D: Learnable Feature Matching Across Wide Baselines Using 3D
Signals [9.201550006194994]
学習可能なマーカは、画像ペア間のコビジュアビリティの小さな領域だけが存在する場合、しばしば性能が低下する。
グラフニューラルネットワークに基づくモデルを用いた学習可能な特徴マッチングフレームワーク LFM-3D を提案する。
その結果,画像対の相対的ポーズ精度が向上し,画像対の相対的ポーズ精度が向上することがわかった。
論文 参考訳(メタデータ) (2023-03-22T17:46:27Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。