論文の概要: Hand3R: Online 4D Hand-Scene Reconstruction in the Wild
- arxiv url: http://arxiv.org/abs/2602.03200v1
- Date: Tue, 03 Feb 2026 07:13:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.302087
- Title: Hand3R: Online 4D Hand-Scene Reconstruction in the Wild
- Title(参考訳): Hand3R:オンライン4Dハンドシーンを野生で再現
- Authors: Wendi Hu, Haonan Zhou, Wenhao Hu, Gaoang Wang,
- Abstract要約: Hand3Rは、モノクロビデオから4Dハンドシーンを再構築する最初のオンラインフレームワークである。
提案手法は, 高忠実度ハンドプレッシャを永続的なシーンメモリに注入することにより, 精度の高いハンドメッシュと高密度なメートルスケールシーン形状の同時再構成を可能にする。
- 参考スコア(独自算出の注目度): 20.72888064955241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For Embodied AI, jointly reconstructing dynamic hands and the dense scene context is crucial for understanding physical interaction. However, most existing methods recover isolated hands in local coordinates, overlooking the surrounding 3D environment. To address this, we present Hand3R, the first online framework for joint 4D hand-scene reconstruction from monocular video. Hand3R synergizes a pre-trained hand expert with a 4D scene foundation model via a scene-aware visual prompting mechanism. By injecting high-fidelity hand priors into a persistent scene memory, our approach enables simultaneous reconstruction of accurate hand meshes and dense metric-scale scene geometry in a single forward pass. Experiments demonstrate that Hand3R bypasses the reliance on offline optimization and delivers competitive performance in both local hand reconstruction and global positioning.
- Abstract(参考訳): Embodied AIにとって、ダイナミックハンドと密集したシーンコンテキストを共同で再構築することは、物理的相互作用を理解する上で不可欠である。
しかし、既存の手法のほとんどは、周囲の3D環境を見渡して、局所的な座標で孤立した手を回収する。
そこで本研究では,モノクロ映像からの4Dハンドシーン再構築のための初のオンラインフレームワークであるHand3Rを提案する。
Hand3Rは、シーン認識ビジュアルプロンプト機構を介して、4Dシーンファウンデーションモデルでトレーニング済みのハンドエキスパートをシナジする。
提案手法は, 高忠実度ハンドプレッシャを永続的なシーンメモリに注入することにより, 精度の高いハンドメッシュと高密度なメートルスケールシーン形状の同時再構成を可能にする。
実験により、Hand3Rはオフライン最適化への依存を回避し、ローカルハンドリコンストラクションとグローバル位置決めの両方で競合性能を提供することが示された。
関連論文リスト
- Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera [49.82535393220003]
Dyn-HaMRは、野生のダイナミックカメラで撮影されたモノクロビデオから4Dグローバルハンドモーションを再構築する最初のアプローチである。
提案手法は,4次元メッシュ・リカバリにおいて最先端の手法を著しく上回ることを示す。
これにより、動くカメラでモノクロビデオから手の動きを復元するための新しいベンチマークが確立される。
論文 参考訳(メタデータ) (2024-12-17T12:43:10Z) - WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - AttentionHand: Text-driven Controllable Hand Image Generation for 3D Hand Reconstruction in the Wild [18.351368674337134]
AttentionHandはテキスト駆動による手動画像生成の新しい手法である。
3Dハンドラベルとよく整合した、さまざまな、そして多数の手動画像を生成することができる。
テキスト・ツー・ハンド画像生成モデル間で最先端を実現する。
論文 参考訳(メタデータ) (2024-07-25T13:29:32Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - HandNeRF: Learning to Reconstruct Hand-Object Interaction Scene from a Single RGB Image [41.580285338167315]
本稿では,1枚のRGB画像から3次元手オブジェクトシーンを再構成する前に,手オブジェクト間のインタラクションを学習する方法を提案する。
我々は手形状を用いて手と物体形状の相対的な構成を制約する。
そこで,HandNeRFは,手動による新たなグリップ構成のシーンを,同等の手法よりも高精度に再構築可能であることを示す。
論文 参考訳(メタデータ) (2023-09-14T17:42:08Z) - Consistent 3D Hand Reconstruction in Video via self-supervised Learning [67.55449194046996]
本稿では,モノクロ映像から高精度で一貫した3Dハンドを再構築する手法を提案する。
検出された2次元手指キーポイントと画像テクスチャは、3次元手の形状とテクスチャに関する重要な手がかりを提供する。
自己監督型3Dハンド再構成モデルであるS2HAND$を提案する。
論文 参考訳(メタデータ) (2022-01-24T09:44:11Z) - Monocular 3D Reconstruction of Interacting Hands via Collision-Aware
Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。
提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文 参考訳(メタデータ) (2021-11-01T08:24:10Z) - Model-based 3D Hand Reconstruction via Self-Supervised Learning [72.0817813032385]
シングルビューのRGB画像から3Dハンドを再構成することは、様々な手構成と深さのあいまいさのために困難である。
ポーズ, 形状, テクスチャ, カメラ視点を共同で推定できる, 自己教師型3Dハンド再構成ネットワークであるS2HANDを提案する。
初めて手動アノテーションを使わずに、正確な3D手の再構築ネットワークを訓練できることを実証しました。
論文 参考訳(メタデータ) (2021-03-22T10:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。