論文の概要: UniCon3R: Contact-aware 3D Human-Scene Reconstruction from Monocular Video
- arxiv url: http://arxiv.org/abs/2604.19923v1
- Date: Tue, 21 Apr 2026 19:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.754415
- Title: UniCon3R: Contact-aware 3D Human-Scene Reconstruction from Monocular Video
- Title(参考訳): UniCon3R:モノクロ映像から3Dの人間シーンを再現
- Authors: Tanuj Sur, Shashank Tripathi, Nikos Athanasiou, Ha Linh Nguyen, Kai Xu, Michael J. Black, Angela Yao,
- Abstract要約: モノクロビデオからのオンライン人間シーン4D再構成のための統合フィードフォワードフレームワークUniCon3Rを紹介する。
人間のポーズやシーン形状から3次元接触を推定することにより,インタラクションをモデル化する。
これにより、UniCon3Rは高忠実なシーン形状と空間的に整列した3D人間を共同で再現することができる。
- 参考スコア(独自算出の注目度): 82.5562736830041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce UniCon3R (Unified Contact-aware 3D Reconstruction), a unified feed-forward framework for online human-scene 4D reconstruction from monocular videos. Recent feed-forward methods enable real-time world-coordinate human motion and scene reconstruction, but they often produce physically implausible artifacts such as bodies floating above the ground or penetrating parts of the scene. The key reason is that existing approaches fail to model physical interactions between the human and the environment. A natural next step is to predict human-scene contact as an auxiliary output -- yet we find this alone is not sufficient: contact must actively correct the reconstruction. To address this, we explicitly model interaction by inferring 3D contact from the human pose and scene geometry and use the contact as a corrective cue for generating the final pose. This enables UniCon3R to jointly recover high-fidelity scene geometry and spatially aligned 3D humans within the scene. Experiments on standard human-centric video benchmarks such as RICH, EMDB, 3DPW and SLOPER4D show that UniCon3R outperforms state-of-the-art baselines on physical plausibility and global human motion estimation while achieving real-time online inference. We experimentally demonstrate that contact serves as a powerful internal prior rather than just an external metric, thus establishing a new paradigm for physically grounded joint human-scene reconstruction. Project page is available at https://surtantheta.github.io/UniCon3R .
- Abstract(参考訳): UniCon3R(Unified Contact-aware 3D Restruction)は、モノクロビデオからのオンライン人間シーン4D再構成のための統合フィードフォワードフレームワークである。
近年のフィードフォワード方式では、人間のリアルタイムな動きやシーンの再構築が可能になっているが、地上に浮かぶ身体や、シーンの一部に浸透する身体など、物理的に不明瞭な人工物がしばしば生産されている。
主な理由は、既存のアプローチが人間と環境の間の物理的相互作用をモデル化できないからである。
自然な次のステップは、人間のシーンの接触を補助的な出力として予測することです。
そこで我々は,人間のポーズとシーン形状から3次元接触を推定し,その接触を最終的なポーズを生成するための補正キューとして用いることにより,インタラクションを明示的にモデル化する。
これにより、UniCon3Rは高忠実なシーン形状と空間的に整列した3D人間を共同で再現することができる。
RICH、EMDB、3DPW、SLOPER4Dなどの標準的な人中心ビデオベンチマークの実験では、UniCon3Rはリアルタイムオンライン推論を達成しつつ、物理的妥当性とグローバルな人間の動き推定に関する最先端のベースラインを上回っている。
我々は,接触が単なる外的メートル法ではなく,強力な内的先行的役割を果たしていることを実験的に証明し,物理的に接地されたヒト・シーンの再構成のための新しいパラダイムを確立する。
プロジェクトページはhttps://surtantheta.github.io/UniCon3R で公開されている。
関連論文リスト
- ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors [51.06020148149403]
ビデオ先行画像からの4D再構成による人-物間相互作用合成のための最初のゼロショットフレームワークであるArtHOIを紹介する。
ArtHOIは、ビデオベースの生成と幾何学的認識の再構築をブリッジし、セマンティックアライメントと物理的基盤の両方のインタラクションを生成する。
論文 参考訳(メタデータ) (2026-03-04T17:58:04Z) - CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives [65.89192712575797]
本研究では,モノクロ映像から再現可能な人物の動きとシーン形状を復元するCRISPを紹介する。
我々の手法は、人中心のビデオベンチマークにおいて、モーショントラッキングの失敗率を55.2%から6.9%に下げる。
このことは、CRISPが物理的に有意な人間の動きと対話環境を大規模に生成する能力を示している。
論文 参考訳(メタデータ) (2025-12-16T18:59:50Z) - ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos [18.73641648585445]
最近のニューラルレンダリングの進歩により、全体的人間シーンの再構築が可能になったが、事前に校正されたカメラと人間のポーズが必要である。
本稿では,オンライン形式でカメラトラッキング,ポーズ推定,ヒューマンシーン再構築を同時に行う新しい統合フレームワークを提案する。
具体的には,人間の変形モジュールを設計し,細部を再構築し,分布外への一般化性を高める。
論文 参考訳(メタデータ) (2025-04-17T17:59:02Z) - Joint Reconstruction of 3D Human and Object via Contact-Based Refinement Transformer [58.98785899556135]
本研究では,人間と物体の接触情報を効果的に活用する新しい関節型3次元物体再構成法(CONTHO)を提案する。
本システムには,1)3次元ガイドによる接触推定と,2)接触に基づく人間と物体の微細化の2つのコア設計がある。
論文 参考訳(メタデータ) (2024-04-07T06:01:49Z) - PLACE: Proximity Learning of Articulation and Contact in 3D Environments [70.50782687884839]
本研究では,人体と周囲の3Dシーンとの近接性をモデル化した新しいインタラクション生成手法PLACEを提案する。
我々の知覚学的研究は、PLACEが実際の人間とシーンの相互作用のリアリズムにアプローチし、最先端の手法を著しく改善することを示している。
論文 参考訳(メタデータ) (2020-08-12T21:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。