論文の概要: HOSt3R: Keypoint-free Hand-Object 3D Reconstruction from RGB images
- arxiv url: http://arxiv.org/abs/2508.16465v1
- Date: Fri, 22 Aug 2025 15:30:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.429884
- Title: HOSt3R: Keypoint-free Hand-Object 3D Reconstruction from RGB images
- Title(参考訳): HOSt3R:RGB画像からのキーポイントフリーハンドオブジェクト3D再構成
- Authors: Anilkumar Swamy, Vincent Leroy, Philippe Weinzaepfel, Jean-Sébastien Franco, Grégory Rogez,
- Abstract要約: モノクロモーションビデオ/画像から手動3D変換を推定するための,ロバストでキーポイントのない手法を提案する。
さらにこれを多視点再構成パイプラインに統合し,手動物体の形状を正確に復元する。
提案手法は,HOSt3Rと命名され,非拘束であり,事前スキャンされたオブジェクトテンプレートやカメラ内在性に依存しず,最先端の性能に達する。
- 参考スコア(独自算出の注目度): 27.025336665386735
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hand-object 3D reconstruction has become increasingly important for applications in human-robot interaction and immersive AR/VR experiences. A common approach for object-agnostic hand-object reconstruction from RGB sequences involves a two-stage pipeline: hand-object 3D tracking followed by multi-view 3D reconstruction. However, existing methods rely on keypoint detection techniques, such as Structure from Motion (SfM) and hand-keypoint optimization, which struggle with diverse object geometries, weak textures, and mutual hand-object occlusions, limiting scalability and generalization. As a key enabler to generic and seamless, non-intrusive applicability, we propose in this work a robust, keypoint detector-free approach to estimating hand-object 3D transformations from monocular motion video/images. We further integrate this with a multi-view reconstruction pipeline to accurately recover hand-object 3D shape. Our method, named HOSt3R, is unconstrained, does not rely on pre-scanned object templates or camera intrinsics, and reaches state-of-the-art performance for the tasks of object-agnostic hand-object 3D transformation and shape estimation on the SHOWMe benchmark. We also experiment on sequences from the HO3D dataset, demonstrating generalization to unseen object categories.
- Abstract(参考訳): ロボットインタラクションや没入型AR/VR体験の応用において,手動物体の3D再構成がますます重要になっている。
RGB配列からのオブジェクトに依存しない手オブジェクト再構成の一般的なアプローチは、手オブジェクト3D追跡と多視点3D再構成という2段階のパイプラインである。
しかし、既存の手法では、様々なオブジェクトのジオメトリ、弱いテクスチャ、および相互のハンドオブジェクトのオクルージョンに苦しむ、拡張性と一般化を制限するキーポイント検出技術(Structure from Motion (SfM))やハンドキーポイント最適化( hand-keypoint Optimization)など、キーポイント検出技術に依存している。
本研究は, 汎用的かつシームレスな非侵襲的応用のためのキーイネージャとして, モノクロモーションビデオ/画像から手動3D変換を推定する, 頑健でキーポイントのない手法を提案する。
さらにこれを多視点再構成パイプラインに統合し,手動物体の形状を正確に復元する。
HOSt3Rという名前のこの手法は、制約がなく、スキャン済みのオブジェクトテンプレートやカメラの内在に頼らず、オブジェクトに依存しない3D変換やSHOWMeベンチマークでの形状推定のタスクに対して最先端の性能に達する。
また、HO3Dデータセットからのシーケンスを実験し、未知のオブジェクトカテゴリへの一般化を実証した。
関連論文リスト
- SR3D: Unleashing Single-view 3D Reconstruction for Transparent and Specular Object Grasping [7.222966501323922]
本研究では,単一視界から透明物体とスペキュラ物体をロボットで把握することのできる,学習自由フレームワークSR3Dを提案する。
具体的には、単一のビューRGBと深度画像が与えられた場合、SR3Dはまず外部視覚モデルを使用して3D再構成されたオブジェクトメッシュを生成する。
そして、鍵となるアイデアは、3Dオブジェクトのポーズとスケールを決定し、再構成されたオブジェクトを元の奥行き劣化した3Dシーンに正確にローカライズすることだ。
論文 参考訳(メタデータ) (2025-05-30T07:38:46Z) - Reconstructing Hand-Held Objects in 3D from Images and Videos [53.277402172488735]
モノクローナルなRGB映像が与えられると、時間とともに手持ちの物体の幾何学を3Dで再構築することを目指している。
1枚のRGB画像から手と物体の形状を共同で再構成するMCC-Hand-Object(MCC-HO)を提案する。
次に、GPT-4(V)を用いてテキストから3D生成モデルを作成し、画像中のオブジェクトにマッチする3Dオブジェクトモデルを検索する。
論文 参考訳(メタデータ) (2024-04-09T17:55:41Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - What's in your hands? 3D Reconstruction of Generic Objects in Hands [49.12461675219253]
我々の研究は、単一のRGB画像からハンドヘルドオブジェクトを再構築することを目的としている。
通常、既知の3Dテンプレートを仮定し、問題を3Dポーズ推定に還元する以前の作業とは対照的に、我々の作業は3Dテンプレートを知らずに汎用的なハンドヘルドオブジェクトを再構成する。
論文 参考訳(メタデータ) (2022-04-14T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。