論文の概要: Follow My Hold: Hand-Object Interaction Reconstruction through Geometric Guidance
- arxiv url: http://arxiv.org/abs/2508.18213v1
- Date: Mon, 25 Aug 2025 17:11:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.881895
- Title: Follow My Hold: Hand-Object Interaction Reconstruction through Geometric Guidance
- Title(参考訳): Follow my Hold:Geometric Guidanceによる手動物体のインタラクション再構築
- Authors: Ayce Idil Aytekin, Helge Rhodin, Rishabh Dabral, Christian Theobalt,
- Abstract要約: 単眼RGB画像から手持ち物体の3次元形状を再構成する拡散法に基づく新しいフレームワークを提案する。
我々は手オブジェクト間相互作用を幾何学的ガイダンスとして使用し、手オブジェクト間相互作用を確実にする。
- 参考スコア(独自算出の注目度): 61.41904916189093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel diffusion-based framework for reconstructing 3D geometry of hand-held objects from monocular RGB images by leveraging hand-object interaction as geometric guidance. Our method conditions a latent diffusion model on an inpainted object appearance and uses inference-time guidance to optimize the object reconstruction, while simultaneously ensuring plausible hand-object interactions. Unlike prior methods that rely on extensive post-processing or produce low-quality reconstructions, our approach directly generates high-quality object geometry during the diffusion process by introducing guidance with an optimization-in-the-loop design. Specifically, we guide the diffusion model by applying supervision to the velocity field while simultaneously optimizing the transformations of both the hand and the object being reconstructed. This optimization is driven by multi-modal geometric cues, including normal and depth alignment, silhouette consistency, and 2D keypoint reprojection. We further incorporate signed distance field supervision and enforce contact and non-intersection constraints to ensure physical plausibility of hand-object interaction. Our method yields accurate, robust and coherent reconstructions under occlusion while generalizing well to in-the-wild scenarios.
- Abstract(参考訳): 本稿では,手持ち物体の3次元形状をモノクロRGB画像から再構成するための,手持ち物体の相互作用を幾何学的ガイダンスとして活用するフレームワークを提案する。
本手法は, 被写体外見に潜時拡散モデルを適用し, 物体再構成の最適化に推論時ガイダンスを用いるとともに, 妥当な手・物体の相互作用を同時に確保する。
大規模な後処理や低品質な再構成を行う従来の手法とは異なり,本手法では,ループ内最適化設計によるガイダンスの導入により,拡散過程における高品質なオブジェクト形状を直接生成する。
具体的には、手と物体の変形を同時に最適化しながら、速度場に監督を適用して拡散モデルを導出する。
この最適化は、正規および深度アライメント、シルエット整合性、および2次元キーポイント再投影を含むマルチモーダル幾何的キューによって駆動される。
さらに,手動物体間相互作用の物理的妥当性を確保するために,符号付き距離場の監視と接触・非交差制約の強制を取り入れた。
提案手法は, 高精度で頑健で整合性のある再構成を行い, 現場のシナリオを一般化する。
関連論文リスト
- Guiding Human-Object Interactions with Rich Geometry and Relations [21.528466852204627]
既存の手法では、物体の遠心点や人間に最も近い点のような単純化された物体表現に頼り、物理的に可算な運動を達成する。
ROGは、HOIに固有の関係をリッチな幾何学的詳細で表現する新しいフレームワークである。
ROGは, 合成HOIのリアリズム評価と意味的精度において, 最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-03-26T02:57:18Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z) - Towards Scalable Multi-View Reconstruction of Geometry and Materials [27.660389147094715]
本稿では,3次元シーンのカメラポーズ,オブジェクト形状,空間変化の両方向反射分布関数(svBRDF)のジョイントリカバリ手法を提案する。
入力は高解像度のRGBD画像であり、アクティブ照明用の点灯付き携帯型ハンドヘルドキャプチャシステムによってキャプチャされる。
論文 参考訳(メタデータ) (2023-06-06T15:07:39Z) - Joint Hand-object 3D Reconstruction from a Single Image with
Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。
入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。
提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-28T09:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。