論文の概要: VPHO: Joint Visual-Physical Cue Learning and Aggregation for Hand-Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2511.12030v1
- Date: Sat, 15 Nov 2025 04:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.515835
- Title: VPHO: Joint Visual-Physical Cue Learning and Aggregation for Hand-Object Pose Estimation
- Title(参考訳): VPHO:手動姿勢推定のための視覚物理キュー学習とアグリゲーション
- Authors: Jun Zhou, Chi Xu, Kaifeng Tang, Yuting Ge, Tingrui Guo, Li Cheng,
- Abstract要約: 単一のRGB画像から手とオブジェクトの3Dポーズを推定することは、基本的な問題ですが、難しい問題です。
本研究では,手動ポーズ推定のための視覚的および身体的手がかりを協調的に統合する新しいフレームワークを提案する。
提案手法は, 精度, 物理的妥当性の両面において, 既存の最先端手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 12.959132766584425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the 3D poses of hands and objects from a single RGB image is a fundamental yet challenging problem, with broad applications in augmented reality and human-computer interaction. Existing methods largely rely on visual cues alone, often producing results that violate physical constraints such as interpenetration or non-contact. Recent efforts to incorporate physics reasoning typically depend on post-optimization or non-differentiable physics engines, which compromise visual consistency and end-to-end trainability. To overcome these limitations, we propose a novel framework that jointly integrates visual and physical cues for hand-object pose estimation. This integration is achieved through two key ideas: 1) joint visual-physical cue learning: The model is trained to extract 2D visual cues and 3D physical cues, thereby enabling more comprehensive representation learning for hand-object interactions; 2) candidate pose aggregation: A novel refinement process that aggregates multiple diffusion-generated candidate poses by leveraging both visual and physical predictions, yielding a final estimate that is visually consistent and physically plausible. Extensive experiments demonstrate that our method significantly outperforms existing state-of-the-art approaches in both pose accuracy and physical plausibility.
- Abstract(参考訳): 単一のRGB画像から手とオブジェクトの3Dポーズを推定することは、拡張現実や人間とコンピュータのインタラクションに広く応用されているが、根本的な問題である。
既存の手法は視覚的手がかりのみに大きく依存しており、しばしば相互接続や非接触といった物理的制約に反する結果を生み出す。
物理学推論を取り入れようとする最近の試みは、一般的に、視覚的一貫性とエンドツーエンドのトレーニング性を損なう、最適化後または微分不可能な物理エンジンに依存している。
これらの制約を克服するために,手動ポーズ推定のための視覚的および身体的手がかりを協調的に統合する新しいフレームワークを提案する。
この統合は2つの主要なアイデアによって実現されます。
1) 共同視覚物理学的キュー学習: モデルは2次元視覚的手がかりと3次元身体的手がかりを抽出し, より包括的表現学習を可能にする。
2)候補ポーズアグリゲーション:視覚的および身体的予測の両方を活用することで複数の拡散生成候補ポーズを集約し、視覚的に一貫性があり、物理的に妥当な最終的な推定値を得る新しい改善プロセス。
大規模な実験により,本手法は既存の最先端手法よりも精度と物理的妥当性に優れることが示された。
関連論文リスト
- PhysHMR: Learning Humanoid Control Policies from Vision for Physically Plausible Human Motion Reconstruction [52.44375492811009]
物理学に基づくシミュレーターにおいて,ヒューマノイド制御のための視覚行動ポリシーを学習する統合フレームワークであるPhysHMRを提案する。
我々のアプローチの重要な要素はピクセル・アズ・レイ戦略であり、2次元のキーポイントを3次元空間に上げ、それらを大域空間に変換する。
PhysHMRは多種多様なシナリオにまたがって高忠実で物理的に妥当な動きを生じさせ、視覚的精度と身体的リアリズムの両方において以前のアプローチより優れている。
論文 参考訳(メタデータ) (2025-10-02T21:01:11Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors [31.277540988829976]
本稿では,現在限定されている3次元HOIデータセットのエンドツーエンドトレーニングに頼ることなく,新しいゼロショットHOI合成フレームワークを提案する。
我々は、事前訓練された人間のポーズ推定モデルを用いて、人間のポーズを抽出し、一般化可能なカテゴリレベルの6-DoF推定手法を導入し、2次元HOI画像からオブジェクトポーズを求める。
論文 参考訳(メタデータ) (2025-03-25T23:55:47Z) - UniHOPE: A Unified Approach for Hand-Only and Hand-Object Pose Estimation [82.93208597526503]
既存のメソッドは、オブジェクトと対話する素手または手に焦点を当てて、特殊化されている。
他のシナリオに適用しても、どちらのメソッドも柔軟にシナリオとパフォーマンスの低下を処理できません。
汎用的な3次元手動ポーズ推定のための統一的なアプローチであるUniHOPEを提案する。
論文 参考訳(メタデータ) (2025-03-17T15:46:43Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Self-supervised Neural Articulated Shape and Appearance Models [18.99030452836038]
そこで本稿では, 物体の形状, 外観, 動きの表現を学習するための新しい手法を提案する。
我々の表現は、これらの意味的次元を独立的に制御できる形状、外観、調音符号を学習する。
論文 参考訳(メタデータ) (2022-05-17T17:50:47Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Physion: Evaluating Physical Prediction from Vision in Humans and
Machines [46.19008633309041]
我々は、この能力を正確に測定する視覚的および身体的予測ベンチマークを示す。
我々は、様々な物理予測を行う能力について、アルゴリズムの配列を比較した。
物理的な状態にアクセス可能なグラフニューラルネットワークは、人間の振る舞いを最もよく捉えている。
論文 参考訳(メタデータ) (2021-06-15T16:13:39Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。