論文の概要: Occlusion-Aware 3D Hand-Object Pose Estimation with Masked AutoEncoders
- arxiv url: http://arxiv.org/abs/2506.10816v1
- Date: Thu, 12 Jun 2025 15:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.81707
- Title: Occlusion-Aware 3D Hand-Object Pose Estimation with Masked AutoEncoders
- Title(参考訳): マスクオートエンコーダを用いた咬合認識型3次元手動画像推定
- Authors: Hui Yang, Wei Sun, Jian Liu, Jin Zheng, Jian Xiao, Ajmal Mian,
- Abstract要約: 本稿では,HOMAEと呼ばれるマスク付きオートエンコーダを用いたオクルージョンを意識したポーズ推定手法を提案する。
我々は,デコーダから抽出したマルチスケール特徴を統合し,符号付き距離場(SDF)を予測する。
DexYCBとHO3Dv2ベンチマークに挑戦する実験は、HOMAEが手動ポーズ推定において最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 29.274913619777088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand-object pose estimation from monocular RGB images remains a significant challenge mainly due to the severe occlusions inherent in hand-object interactions. Existing methods do not sufficiently explore global structural perception and reasoning, which limits their effectiveness in handling occluded hand-object interactions. To address this challenge, we propose an occlusion-aware hand-object pose estimation method based on masked autoencoders, termed as HOMAE. Specifically, we propose a target-focused masking strategy that imposes structured occlusion on regions of hand-object interaction, encouraging the model to learn context-aware features and reason about the occluded structures. We further integrate multi-scale features extracted from the decoder to predict a signed distance field (SDF), capturing both global context and fine-grained geometry. To enhance geometric perception, we combine the implicit SDF with an explicit point cloud derived from the SDF, leveraging the complementary strengths of both representations. This fusion enables more robust handling of occluded regions by combining the global context from the SDF with the precise local geometry provided by the point cloud. Extensive experiments on challenging DexYCB and HO3Dv2 benchmarks demonstrate that HOMAE achieves state-of-the-art performance in hand-object pose estimation. We will release our code and model.
- Abstract(参考訳): モノクローナルなRGB画像から手オブジェクトのポーズ推定は、主に手オブジェクトの相互作用に固有の重度の閉塞が原因で重要な課題である。
既存の手法では、グローバルな構造的知覚と推論を十分に探求することができない。
この課題に対処するために,マスク付きオートエンコーダをベースとしたオクルージョン対応手動ポーズ推定手法を提案する。
具体的には、対象物間相互作用の領域に構造化オクルージョンを課し、コンテキスト認識の特徴を学習し、隠蔽構造を推論するターゲット指向マスキング戦略を提案する。
さらに,デコーダから抽出したマルチスケール機能を統合して,符号付き距離場(SDF)を予測する。
幾何知覚を高めるために、暗黙のSDFとSDFから派生した明示的な点雲を組み合わせ、両表現の相補的な強みを利用する。
この融合により、SDFのグローバルコンテキストとポイントクラウドが提供する正確な局所幾何学を組み合わせることで、隠蔽領域のより堅牢なハンドリングが可能になる。
DexYCB と HO3Dv2 ベンチマークに対する大規模な実験は、HOMAE が手動ポーズ推定において最先端のパフォーマンスを達成することを示した。
コードとモデルをリリースします。
関連論文リスト
- BoxDreamer: Dreaming Box Corners for Generalizable Object Pose Estimation [58.14071520415005]
本稿では、スパースビュー設定における課題に対処するために、オブジェクトポーズ推定のための汎用RGBベースのアプローチを提案する。
これらの制約を克服するために、オブジェクトのポーズの中間表現としてオブジェクト境界ボックスのコーナーポイントを導入する。
3Dオブジェクトコーナーはスパース入力ビューから確実に復元でき、対象ビューの2Dコーナーポイントは、新しい参照ベースポイントデータセットによって推定される。
論文 参考訳(メタデータ) (2025-04-10T17:58:35Z) - UniHOPE: A Unified Approach for Hand-Only and Hand-Object Pose Estimation [82.93208597526503]
既存のメソッドは、オブジェクトと対話する素手または手に焦点を当てて、特殊化されている。
他のシナリオに適用しても、どちらのメソッドも柔軟にシナリオとパフォーマンスの低下を処理できません。
汎用的な3次元手動ポーズ推定のための統一的なアプローチであるUniHOPEを提案する。
論文 参考訳(メタデータ) (2025-03-17T15:46:43Z) - HOISDF: Constraining 3D Hand-Object Pose Estimation with Global Signed
Distance Fields [96.04424738803667]
HOISDFは手動ポーズ推定ネットワークである。
手とオブジェクトのSDFを利用して、完全な再構築ボリュームに対してグローバルで暗黙的な表現を提供する。
そこで, HOISDFは手動ポーズ推定ベンチマークにおいて, 最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-02-26T22:48:37Z) - NCRF: Neural Contact Radiance Fields for Free-Viewpoint Rendering of
Hand-Object Interaction [19.957593804898064]
ビデオのスパース集合から手動物体間相互作用を再構成するための新しいフリーポイントレンダリングフレームワークであるニューラルコンタクトレーダランスフィールド(NCRF)を提案する。
私たちはこれらの重要なコンポーネントを共同で学び、視覚的および幾何学的制約で相互に助け合い、規則化します。
提案手法は、レンダリング品質とポーズ推定精度の両方の観点から、現在の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2024-02-08T10:09:12Z) - Monocular Per-Object Distance Estimation with Masked Object Modeling [33.59920084936913]
本稿では、Masked Image Modeling (MiM) からインスピレーションを得て、マルチオブジェクトタスクに拡張する。
Masked Object Modeling (MoM) と呼ばれる我々の戦略は、マスキング技術の新しい応用を可能にする。
我々は、標準KITTI、NuScenes、MOT Synthデータセット上の新しい参照アーキテクチャ(DistFormer)におけるMoMの有効性を評価する。
論文 参考訳(メタデータ) (2024-01-06T10:56:36Z) - D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z) - Occlusion-Robust Object Pose Estimation with Holistic Representation [42.27081423489484]
State-of-the-art(SOTA)オブジェクトのポーズ推定器は2段階のアプローチを取る。
我々は,新しいブロック・アンド・ブラックアウトバッチ拡張技術を開発した。
また,総合的なポーズ表現学習を促進するためのマルチ精度監視アーキテクチャも開発している。
論文 参考訳(メタデータ) (2021-10-22T08:00:26Z) - Joint Hand-object 3D Reconstruction from a Single Image with
Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。
入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。
提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-28T09:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。