論文の概要: Generalized Hand-Object Pose Estimation with Occlusion Awareness
- arxiv url: http://arxiv.org/abs/2603.19013v1
- Date: Thu, 19 Mar 2026 15:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.224232
- Title: Generalized Hand-Object Pose Estimation with Occlusion Awareness
- Title(参考訳): Occlusion Awareness を用いた汎用手動姿勢推定
- Authors: Hui Yang, Wei Sun, Jian Liu, Jian Xiao Tao Xie, Hossein Rahmani, Ajmal Saeed mian, Nicu Sebe, Gim Hee Lee,
- Abstract要約: 1枚のRGB画像から一般的な3次元手動ポーズ推定は、物体の外観や相互作用パターンに大きな変化があるため、依然として困難である。
我々は,オクルージョン認識を用いた汎用的手動ポーズ推定フレームワークであるGenHOIを提案する。
- 参考スコア(独自算出の注目度): 84.64167163714912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalized 3D hand-object pose estimation from a single RGB image remains challenging due to the large variations in object appearances and interaction patterns, especially under heavy occlusion. We propose GenHOI, a framework for generalized hand-object pose estimation with occlusion awareness. GenHOI integrates hierarchical semantic knowledge with hand priors to enhance model generalization under challenging occlusion conditions. Specifically, we introduce a hierarchical semantic prompt that encodes object states, hand configurations, and interaction patterns via textual descriptions. This enables the model to learn abstract high-level representations of hand-object interactions for generalization to unseen objects and novel interactions while compensating for missing or ambiguous visual cues. To enable robust occlusion reasoning, we adopt a multi-modal masked modeling strategy over RGB images, predicted point clouds, and textual descriptions. Moreover, we leverage hand priors as stable spatial references to extract implicit interaction constraints. This allows reliable pose inference even under significant variations in object shapes and interaction patterns. Extensive experiments on the challenging DexYCB and HO3Dv2 benchmarks demonstrate that our method achieves state-of-the-art performance in hand-object pose estimation.
- Abstract(参考訳): 単一RGB画像からの一般的な3次元手オブジェクトのポーズ推定は、特に重閉塞下では、物体の出現や相互作用パターンが大きく変化するため、依然として困難である。
我々は,オクルージョン認識を用いた汎用的手動ポーズ推定フレームワークであるGenHOIを提案する。
GenHOIは、階層的な意味知識を手先と統合し、挑戦的な閉塞条件下でモデル一般化を強化する。
具体的には、テキスト記述によるオブジェクトの状態、手の設定、インタラクションパターンをエンコードする階層的セマンティックプロンプトを導入する。
これにより、モデルは、欠落または曖昧な視覚的手がかりを補いながら、未確認の物体や新しい相互作用への一般化のための手動物体の相互作用の抽象的な高レベル表現を学習することができる。
頑健なオクルージョン推論を実現するために,RGB画像,予測点雲,テキスト記述などのマルチモーダル・マスク付きモデリング戦略を採用した。
さらに,手先を安定な空間参照として利用し,暗黙の相互作用制約を抽出する。
これにより、オブジェクトの形状や相互作用パターンに大きな変化があっても、信頼できるポーズ推論が可能になる。
DexYCB と HO3Dv2 ベンチマークの大規模な実験により,手動ポーズ推定における最先端性能が得られた。
関連論文リスト
- AffordGrasp: Cross-Modal Diffusion for Affordance-Aware Grasp Synthesis [50.793806818677716]
AffordGraspは、物理的に安定し、セマンティックに忠実な人間の握りを高精度に生成する。
AffordGraspは、手ポーズの空きを意識した潜在表現を二重条件拡散プロセスに統合する。
AffordGraspはHO-3D, OakInk, GRAB, AffordPoseの4つの命令強化ベンチマークで評価した。
論文 参考訳(メタデータ) (2026-03-09T06:56:35Z) - Occlusion-Aware 3D Hand-Object Pose Estimation with Masked AutoEncoders [29.274913619777088]
本稿では,HOMAEと呼ばれるマスク付きオートエンコーダを用いたオクルージョンを意識したポーズ推定手法を提案する。
我々は,デコーダから抽出したマルチスケール特徴を統合し,符号付き距離場(SDF)を予測する。
DexYCBとHO3Dv2ベンチマークに挑戦する実験は、HOMAEが手動ポーズ推定において最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-06-12T15:30:47Z) - UniHOPE: A Unified Approach for Hand-Only and Hand-Object Pose Estimation [82.93208597526503]
既存のメソッドは、オブジェクトと対話する素手または手に焦点を当てて、特殊化されている。
他のシナリオに適用しても、どちらのメソッドも柔軟にシナリオとパフォーマンスの低下を処理できません。
汎用的な3次元手動ポーズ推定のための統一的なアプローチであるUniHOPEを提案する。
論文 参考訳(メタデータ) (2025-03-17T15:46:43Z) - NCRF: Neural Contact Radiance Fields for Free-Viewpoint Rendering of
Hand-Object Interaction [19.957593804898064]
ビデオのスパース集合から手動物体間相互作用を再構成するための新しいフリーポイントレンダリングフレームワークであるニューラルコンタクトレーダランスフィールド(NCRF)を提案する。
私たちはこれらの重要なコンポーネントを共同で学び、視覚的および幾何学的制約で相互に助け合い、規則化します。
提案手法は、レンダリング品質とポーズ推定精度の両方の観点から、現在の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2024-02-08T10:09:12Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。