論文の概要: ForeHOI: Feed-forward 3D Object Reconstruction from Daily Hand-Object Interaction Videos
- arxiv url: http://arxiv.org/abs/2602.06226v1
- Date: Thu, 05 Feb 2026 22:05:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.127895
- Title: ForeHOI: Feed-forward 3D Object Reconstruction from Daily Hand-Object Interaction Videos
- Title(参考訳): ForeHOI: 毎日のハンドオブジェクトインタラクションビデオからフィードフォワード3Dオブジェクトを復元する
- Authors: Yuantao Chen, Jiahao Chang, Chongjie Ye, Chaoran Zhang, Zhaojie Fang, Chenghong Li, Xiaoguang Han,
- Abstract要約: 本稿では,モノクラーハンドオブジェクトインタラクションビデオから直接3次元オブジェクト形状を再構成するフィードフォワードモデルであるForeHOIを紹介する。
ForeHOIは、オブジェクト再構成における最先端のパフォーマンスを実現し、100倍のスピードアップで従来の手法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 22.436134664301473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ubiquity of monocular videos capturing daily hand-object interactions presents a valuable resource for embodied intelligence. While 3D hand reconstruction from in-the-wild videos has seen significant progress, reconstructing the involved objects remains challenging due to severe occlusions and the complex, coupled motion of the camera, hands, and object. In this paper, we introduce ForeHOI, a novel feed-forward model that directly reconstructs 3D object geometry from monocular hand-object interaction videos within one minute of inference time, eliminating the need for any pre-processing steps. Our key insight is that, the joint prediction of 2D mask inpainting and 3D shape completion in a feed-forward framework can effectively address the problem of severe occlusion in monocular hand-held object videos, thereby achieving results that outperform the performance of optimization-based methods. The information exchanges between the 2D and 3D shape completion boosts the overall reconstruction quality, enabling the framework to effectively handle severe hand-object occlusion. Furthermore, to support the training of our model, we contribute the first large-scale, high-fidelity synthetic dataset of hand-object interactions with comprehensive annotations. Extensive experiments demonstrate that ForeHOI achieves state-of-the-art performance in object reconstruction, significantly outperforming previous methods with around a 100x speedup. Code and data are available at: https://github.com/Tao-11-chen/ForeHOI.
- Abstract(参考訳): 日常的な手と物体の相互作用を捉えたモノクラービデオは、インテリジェンスを具現化するための貴重な資源である。
カメラ、手、物体の動きが複雑で複雑なため、複雑な物体の再構成は難しいままです。
本稿では,単眼ハンドオブジェクトインタラクションビデオから1分以内に3Dオブジェクトの形状を直接再構成し,前処理のステップを不要とする,新しいフィードフォワードモデルであるForeHOIを紹介する。
我々の重要な洞察は、フィードフォワードフレームワークにおける2次元マスクの塗布と3次元形状完成の合同予測が、モノクロハンドヘルドオブジェクトビデオにおける深刻な閉塞の問題に効果的に対処し、最適化法の性能より優れた結果が得られることである。
2次元形状と3次元形状の整合性の間の情報交換により、全体の再構築品質が向上し、フレームワークは重度の手・物体の閉塞を効果的に処理できる。
さらに,本モデルのトレーニングを支援するため,包括的アノテーションを用いた手オブジェクトインタラクションの大規模かつ高忠実な合成データセットを作成した。
広範囲な実験により、ForeHOIはオブジェクト再構成における最先端性能を実現し、100倍の高速化で従来の手法よりも大幅に優れていた。
コードとデータは、https://github.com/Tao-11-chen/ForeHOI.comで入手できる。
関連論文リスト
- HOSt3R: Keypoint-free Hand-Object 3D Reconstruction from RGB images [27.025336665386735]
モノクロモーションビデオ/画像から手動3D変換を推定するための,ロバストでキーポイントのない手法を提案する。
さらにこれを多視点再構成パイプラインに統合し,手動物体の形状を正確に復元する。
提案手法は,HOSt3Rと命名され,非拘束であり,事前スキャンされたオブジェクトテンプレートやカメラ内在性に依存しず,最先端の性能に達する。
論文 参考訳(メタデータ) (2025-08-22T15:30:40Z) - MagicHOI: Leveraging 3D Priors for Accurate Hand-object Reconstruction from Short Monocular Video Clips [10.583581000388305]
本稿では,短い単分子インタラクションビデオから手と物体を再構成するMagicHOIを提案する。
我々は,MagicHOIが既存の手指再建法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-08-07T15:37:35Z) - EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。
まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。
最初の再構築では、事前に誘導された最適化方式を採用する。
論文 参考訳(メタデータ) (2024-11-21T16:33:35Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - MOHO: Learning Single-view Hand-held Object Reconstruction with
Multi-view Occlusion-Aware Supervision [75.38953287579616]
ハンドヘルドオブジェクト再構成のためのハンドオブジェクトビデオから,多視点オクルージョン対応監視を利用する新しいフレームワークを提案する。
このような設定において、手による排他と対象の自己排他という2つの主要な課題に対処する。
HO3D と DexYCB のデータセットを用いた実験では、2D のMOHO が 3D の教師付き手法に対して大きなマージンで優れた結果を得ることが示された。
論文 参考訳(メタデータ) (2023-10-18T03:57:06Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - Joint Hand-object 3D Reconstruction from a Single Image with
Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。
入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。
提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-28T09:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。