論文の概要: MaskHOI: Robust 3D Hand-Object Interaction Estimation via Masked Pre-training
- arxiv url: http://arxiv.org/abs/2507.13673v1
- Date: Fri, 18 Jul 2025 05:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.195731
- Title: MaskHOI: Robust 3D Hand-Object Interaction Estimation via Masked Pre-training
- Title(参考訳): MaskHOI:masked Pre-trainingによるロバストな3Dハンドオブジェクトインタラクション推定
- Authors: Yuechen Xie, Haobo Jiang, Jian Yang, Yigong Zhang, Jin Xie,
- Abstract要約: MaskHOIは、新しいMasked AutoencoderによるHOIポーズ推定のための事前トレーニングフレームワークである。
我々の中核となる考え方は、MAEのマスキング・ザ・リコンストラクション戦略を利用して、特徴エンコーダが欠落した空間情報や構造情報を推測することを奨励することである。
本研究では,事前学習したエンコーダの幾何学的認識を高めるために,新しいMasked Signed Distance Field(SDF)駆動マルチモーダル学習機構を導入する。
- 参考スコア(独自算出の注目度): 23.200848479769903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In 3D hand-object interaction (HOI) tasks, estimating precise joint poses of hands and objects from monocular RGB input remains highly challenging due to the inherent geometric ambiguity of RGB images and the severe mutual occlusions that occur during interaction.To address these challenges, we propose MaskHOI, a novel Masked Autoencoder (MAE)-driven pretraining framework for enhanced HOI pose estimation. Our core idea is to leverage the masking-then-reconstruction strategy of MAE to encourage the feature encoder to infer missing spatial and structural information, thereby facilitating geometric-aware and occlusion-robust representation learning. Specifically, based on our observation that human hands exhibit far greater geometric complexity than rigid objects, conventional uniform masking fails to effectively guide the reconstruction of fine-grained hand structures. To overcome this limitation, we introduce a Region-specific Mask Ratio Allocation, primarily comprising the region-specific masking assignment and the skeleton-driven hand masking guidance. The former adaptively assigns lower masking ratios to hand regions than to rigid objects, balancing their feature learning difficulty, while the latter prioritizes masking critical hand parts (e.g., fingertips or entire fingers) to realistically simulate occlusion patterns in real-world interactions. Furthermore, to enhance the geometric awareness of the pretrained encoder, we introduce a novel Masked Signed Distance Field (SDF)-driven multimodal learning mechanism. Through the self-masking 3D SDF prediction, the learned encoder is able to perceive the global geometric structure of hands and objects beyond the 2D image plane, overcoming the inherent limitations of monocular input and alleviating self-occlusion issues. Extensive experiments demonstrate that our method significantly outperforms existing state-of-the-art approaches.
- Abstract(参考訳): 3Dハンドオブジェクトインタラクション(HOI)タスクでは、RGB画像の固有な幾何学的曖昧さと相互作用中に発生する重篤な相互閉塞のために、単眼RGB入力から手と物体の正確な関節ポーズを正確に推定することは非常に困難であり、これらの課題に対処するために、新しいMasked Autoencoder(MAE)によるHOIポーズ推定のための事前訓練フレームワークであるMaskHOIを提案する。
我々の中核となる考え方は、MAEのマスキング・ザ・リコンストラクション戦略を活用して、特徴エンコーダが空間的・構造的情報の欠如を推測し、幾何学的認識とオクルージョン・ロバスト表現学習を容易にすることである。
具体的には、人間の手は剛体物体よりもはるかに複雑な幾何学的複雑さを示すという観察に基づいて、従来の一様マスキングは、きめ細かな手の構造の再構築を効果的に導くことができない。
この制限を克服するために、地域固有のマスク比配分を導入し、主に地域固有のマスキングの割り当てと骨格駆動の手マスクのガイダンスを含む。
前者は、厳密な物体よりも手領域に低いマスキング比を割り当て、特徴学習の困難さのバランスをとる一方、後者は、現実世界の相互作用における隠蔽パターンを現実的にシミュレートするために、重要な手の部分(例えば、指先、指先など)をマスキングすることを優先する。
さらに,事前学習したエンコーダの幾何学的認識を高めるために,新しいMasked Signed Distance Field(SDF)駆動マルチモーダル学習機構を導入する。
学習エンコーダは, 自己マスキング3D SDF予測により, 2次元画像平面を超えて手や物体のグローバルな幾何学的構造を知覚し, 単眼入力の固有の限界を克服し, 自己閉塞問題を緩和する。
大規模な実験により,本手法は既存の最先端手法を著しく上回っていることが示された。
関連論文リスト
- SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - Occlusion-Aware 3D Hand-Object Pose Estimation with Masked AutoEncoders [29.274913619777088]
本稿では,HOMAEと呼ばれるマスク付きオートエンコーダを用いたオクルージョンを意識したポーズ推定手法を提案する。
我々は,デコーダから抽出したマルチスケール特徴を統合し,符号付き距離場(SDF)を予測する。
DexYCBとHO3Dv2ベンチマークに挑戦する実験は、HOMAEが手動ポーズ推定において最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-06-12T15:30:47Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - MaskHand: Generative Masked Modeling for Robust Hand Mesh Reconstruction in the Wild [11.39213280304101]
MaskHandは、ハンドメッシュリカバリのための新しい生成マスクモデルである。
あいまいな2D-to-3Dマッピングプロセスの確率分布から学習とサンプリングにより、可塑性3Dハンドメッシュを合成する。
3Dハンドメッシュ再構築において,最先端の精度,堅牢性,現実性を実現する。
論文 参考訳(メタデータ) (2024-12-18T00:10:00Z) - Spatial Hierarchy and Temporal Attention Guided Cross Masking for Self-supervised Skeleton-based Action Recognition [4.036669828958854]
本研究では,空間的,時間的両面からスケルトン配列にマスキングを適用した階層構造と注意誘導型クロスマスキングフレームワーク(HA-CM)を提案する。
空間グラフでは、双曲空間を用いて関節の区別を維持し、高次元骨格の階層構造を効果的に維持する。
本研究では,高次元空間における距離の収束と大域的視点の欠如に対処するため,従来の距離指標をマスキングのための大域的注意に置き換える。
論文 参考訳(メタデータ) (2024-09-26T15:28:25Z) - MOHO: Learning Single-view Hand-held Object Reconstruction with
Multi-view Occlusion-Aware Supervision [75.38953287579616]
ハンドヘルドオブジェクト再構成のためのハンドオブジェクトビデオから,多視点オクルージョン対応監視を利用する新しいフレームワークを提案する。
このような設定において、手による排他と対象の自己排他という2つの主要な課題に対処する。
HO3D と DexYCB のデータセットを用いた実験では、2D のMOHO が 3D の教師付き手法に対して大きなマージンで優れた結果を得ることが示された。
論文 参考訳(メタデータ) (2023-10-18T03:57:06Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - Self-supervised Pre-training with Masked Shape Prediction for 3D Scene
Understanding [106.0876425365599]
Masked Shape Prediction (MSP)は、3Dシーンでマスクされた信号モデリングを行うための新しいフレームワークである。
MSPは3Dセマンティックキュー、すなわち幾何学的形状をマスクされた点の予測ターゲットとして使用する。
論文 参考訳(メタデータ) (2023-05-08T20:09:19Z) - HAISTA-NET: Human Assisted Instance Segmentation Through Attention [3.073046540587735]
より正確な予測を可能にし,高品質なセグメンテーションマスクを生成する新しい手法を提案する。
我々の人間支援セグメンテーションモデルHAISTA-NETは、既存のStrong Mask R-CNNネットワークを拡張し、人間の特定部分境界を組み込む。
HAISTA-NETは,Mask R-CNN,Strong Mask R-CNN,Mask2Formerなどの最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-04T18:39:14Z) - MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with
Informative-Preserved Reconstruction and Self-Distilled Consistency [120.9499803967496]
本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。
本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。
マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
論文 参考訳(メタデータ) (2022-12-20T01:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。