論文の概要: MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation
- arxiv url: http://arxiv.org/abs/2505.16602v1
- Date: Thu, 22 May 2025 12:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.285323
- Title: MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation
- Title(参考訳): MEgoHand:マルチモーダル・エゴセントリック・ハンド-オブジェクトインタラクション・モーションジェネレーション
- Authors: Bohan Zhou, Yi Zhan, Zhongbin Zhang, Zongqing Lu,
- Abstract要約: MEgoHandは、エゴセントリックなRGB、テキスト、初期手ポーズから物理的にプラウジブルなハンドオブジェクトインタラクションを合成するフレームワークである。
手首の翻訳誤差と関節回転誤差の大幅な低減を実現し、手首の微細な関節構造を正確にモデル化する能力を強調している。
- 参考スコア(独自算出の注目度): 28.75149480374178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric hand-object motion generation is crucial for immersive AR/VR and robotic imitation but remains challenging due to unstable viewpoints, self-occlusions, perspective distortion, and noisy ego-motion. Existing methods rely on predefined 3D object priors, limiting generalization to novel objects, which restricts their generalizability to novel objects. Meanwhile, recent multimodal approaches suffer from ambiguous generation from abstract textual cues, intricate pipelines for modeling 3D hand-object correlation, and compounding errors in open-loop prediction. We propose MEgoHand, a multimodal framework that synthesizes physically plausible hand-object interactions from egocentric RGB, text, and initial hand pose. MEgoHand introduces a bi-level architecture: a high-level "cerebrum" leverages a vision language model (VLM) to infer motion priors from visual-textual context and a monocular depth estimator for object-agnostic spatial reasoning, while a low-level DiT-based flow-matching policy generates fine-grained trajectories with temporal orthogonal filtering to enhance stability. To address dataset inconsistency, we design a dataset curation paradigm with an Inverse MANO Retargeting Network and Virtual RGB-D Renderer, curating a unified dataset of 3.35M RGB-D frames, 24K interactions, and 1.2K objects. Extensive experiments across five in-domain and two cross-domain datasets demonstrate the effectiveness of MEgoHand, achieving substantial reductions in wrist translation error (86.9%) and joint rotation error (34.1%), highlighting its capacity to accurately model fine-grained hand joint structures and generalize robustly across diverse scenarios.
- Abstract(参考訳): Egocentric hand-object motion generationは没入型AR/VRとロボットの模倣に不可欠であるが、不安定な視点、自己閉塞、視点歪み、ノイズの多い自我運動のために依然として困難である。
既存の手法は、3Dオブジェクトの事前定義に依存しており、新しいオブジェクトへの一般化を制限し、新しいオブジェクトへの一般化性を制限する。
一方、近年のマルチモーダルアプローチでは、抽象的なテクスチャキュー、複雑なパイプラインによる3次元ハンドオブジェクト相関のモデル化、オープンループ予測における複合的エラーなど、曖昧な生成に悩まされている。
我々は,エゴセントリックなRGB,テキスト,初期手ポーズから,物理的に可塑性な手オブジェクトインタラクションを合成するマルチモーダルフレームワークMEgoHandを提案する。
ハイレベルな「脳」は視覚言語モデル(VLM)を利用して、視覚的テクスチュアコンテキストから動きの先行を推定し、オブジェクトに依存しない空間的推論のための単眼深度推定器を、低レベルなDiTベースのフローマッチングポリシーは時間的直交フィルタリングによる微粒な軌跡を生成し、安定性を向上させる。
データセットの不整合に対処するため,Inverse MANO Retargeting NetworkとVirtual RGB-D Rendererを用いてデータセットキュレーションパラダイムを設計し,335万RGB-Dフレーム,24Kインタラクション,1.2Kオブジェクトの統一データセットをキュレートする。
5つのドメイン内と2つのクロスドメインデータセットにわたる大規模な実験は、MegoHandの有効性を示し、手首翻訳誤差(86.9%)と関節回転誤差(34.1%)を大幅に削減し、細粒な手関節構造を正確にモデル化し、様々なシナリオで堅牢に一般化する能力を強調している。
関連論文リスト
- HOGSA: Bimanual Hand-Object Interaction Understanding with 3D Gaussian Splatting Based Data Augmentation [29.766317710266765]
本稿では,2次元手動物体間相互作用のための3次元ガウススプラッティングに基づくデータ拡張フレームワークを提案する。
メッシュベースの3DGSを用いてオブジェクトとハンドをモデル化し、マルチレゾリューション入力画像によるレンダリングのぼかし問題に対処する。
両手オブジェクトに対する片手握りポーズ最適化モジュールを拡張し、両手オブジェクト間相互作用のさまざまなポーズを生成する。
論文 参考訳(メタデータ) (2025-01-06T08:48:17Z) - D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z) - MOHO: Learning Single-view Hand-held Object Reconstruction with
Multi-view Occlusion-Aware Supervision [75.38953287579616]
ハンドヘルドオブジェクト再構成のためのハンドオブジェクトビデオから,多視点オクルージョン対応監視を利用する新しいフレームワークを提案する。
このような設定において、手による排他と対象の自己排他という2つの主要な課題に対処する。
HO3D と DexYCB のデータセットを用いた実験では、2D のMOHO が 3D の教師付き手法に対して大きなマージンで優れた結果を得ることが示された。
論文 参考訳(メタデータ) (2023-10-18T03:57:06Z) - Joint Hand-object 3D Reconstruction from a Single Image with
Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。
入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。
提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-28T09:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。