論文の概要: CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives
- arxiv url: http://arxiv.org/abs/2512.14696v1
- Date: Tue, 16 Dec 2025 18:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.846166
- Title: CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives
- Title(参考訳): CRISP:平らなシーンのプリミティブ付きモノクロビデオからコンタクトガイド付きReal2Sim
- Authors: Zihan Wang, Jiashun Wang, Jeff Tan, Yiwen Zhao, Jessica Hodgins, Shubham Tulsiani, Deva Ramanan,
- Abstract要約: 本研究では,モノクロ映像から再現可能な人物の動きとシーン形状を復元するCRISPを紹介する。
我々の手法は、人中心のビデオベンチマークにおいて、モーショントラッキングの失敗率を55.2%から6.9%に下げる。
このことは、CRISPが物理的に有意な人間の動きと対話環境を大規模に生成する能力を示している。
- 参考スコア(独自算出の注目度): 65.89192712575797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CRISP, a method that recovers simulatable human motion and scene geometry from monocular video. Prior work on joint human-scene reconstruction relies on data-driven priors and joint optimization with no physics in the loop, or recovers noisy geometry with artifacts that cause motion tracking policies with scene interactions to fail. In contrast, our key insight is to recover convex, clean, and simulation-ready geometry by fitting planar primitives to a point cloud reconstruction of the scene, via a simple clustering pipeline over depth, normals, and flow. To reconstruct scene geometry that might be occluded during interactions, we make use of human-scene contact modeling (e.g., we use human posture to reconstruct the occluded seat of a chair). Finally, we ensure that human and scene reconstructions are physically-plausible by using them to drive a humanoid controller via reinforcement learning. Our approach reduces motion tracking failure rates from 55.2\% to 6.9\% on human-centric video benchmarks (EMDB, PROX), while delivering a 43\% faster RL simulation throughput. We further validate it on in-the-wild videos including casually-captured videos, Internet videos, and even Sora-generated videos. This demonstrates CRISP's ability to generate physically-valid human motion and interaction environments at scale, greatly advancing real-to-sim applications for robotics and AR/VR.
- Abstract(参考訳): 本研究では,モノクロ映像から再現可能な人物の動きとシーン形状を復元するCRISPを紹介する。
共同の人間シーン再構築の以前の研究は、ループに物理を持たないデータ駆動の先行と共同最適化に依存していたり、あるいは、シーンの相互作用を伴うモーショントラッキングポリシーを失敗させる人工物でノイズの多い幾何学を回復した。
対照的に、我々の重要な洞察は、平面的プリミティブをシーンの点雲再構成に、深さ、正規度、流れの単純なクラスタリングパイプラインを通して組み込むことによって、凸、クリーン、シミュレーション可能な幾何を復元することである。
インタラクション中に閉鎖されるかもしれないシーン形状を再構築するために,人間とシーンの接触モデリングを利用する(例えば,椅子の閉塞した座席を再構築するために人間の姿勢を利用する)。
最後に,人間とシーンの再構成が,強化学習によるヒューマノイドコントローラの駆動により,物理的に評価可能であることを確認した。
提案手法は,人中心ビデオベンチマーク(EMDB, PROX)の動作追跡失敗率を55.2\%から6.9\%に削減し,RLシミュレーションスループットを43\%高速化する。
さらに、カジュアルにキャプチャされたビデオ、インターネットビデオ、さらにはSoraが生成したビデオでも検証しています。
このことは、CRISPが物理的に有能な人間の動きと相互作用環境を大規模に生成する能力を示し、ロボット工学とAR/VRのリアルタイムアプリケーションを大幅に進歩させた。
関連論文リスト
- From Generated Human Videos to Physically Plausible Robot Trajectories [103.28274349461607]
ビデオ生成モデルは、人間のアクションを新しい文脈で合成する能力が急速に向上している。
この可能性を実現するために、ヒューマノイドはどうやってゼロショットで生成されたビデオから人間の行動を実行することができるのか?
この課題は、生成されたビデオがしばしばうるさいので、実際のビデオと比べて直接の模倣を困難にする形態的歪みを示すためである。
我々は,3次元キーポイントに条件付き物理対応強化学習政策であるGenMimicを提案し,対称性の正則化とキーポイント重み付きトラッキング報酬を訓練した。
論文 参考訳(メタデータ) (2025-12-04T18:56:03Z) - SHARE: Scene-Human Aligned Reconstruction [10.764401463569442]
本研究では,シーン幾何学固有の空間的手がかりを利用して人間の動きを正確に再現する手法であるScene-Human Aligned Reconstructionを紹介する。
マスクを用いてシーンから抽出した人点マップと人間のメッシュを比較して、人間の位置を反復的に洗練する。
我々のアプローチは、周囲のシーンを再構築しながら、より正確な3D人間の配置を可能にし、キュレートされたデータセットと、その中のWebビデオの両方でのユースケースを容易にする。
論文 参考訳(メタデータ) (2025-10-17T06:12:10Z) - HumanRAM: Feed-forward Human Reconstruction and Animation Model using Transformers [60.86393841247567]
HumanRAMは、モノクル画像やスパース画像から人間の再構築とアニメーションを一般化するための、新しいフィードフォワードアプローチである。
提案手法は,人間の再構築とアニメーションを,明示的なポーズ条件を導入することによって統合された枠組みに統合する。
実験の結果,HumanRAMは再現精度,アニメーション忠実度,実世界のデータセット上での一般化性能において,従来の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-03T17:50:05Z) - Joint Optimization for 4D Human-Scene Reconstruction in the Wild [59.322951972876716]
モノクロビデオから野生の4次元人間シーンを再現する新しい最適化手法JOSHを提案する。
実験の結果,JOSHはグローバルな人間の動き推定と密集したシーン再構築において,より良い結果が得られることが示された。
さらに、より効率的なモデルJOSH3Rを設計し、Webビデオから直接擬似ラベルでトレーニングします。
論文 参考訳(メタデータ) (2025-01-04T01:53:51Z) - Physics-based Scene Layout Generation from Human Motion [21.939444709132395]
本研究では、シーンレイアウト生成を同時に最適化し、物理シミュレータで動く人間をシミュレートする物理に基づくアプローチを提案する。
我々は、強化学習を用いて、キャラクタ動作模倣コントローラとシーンレイアウトジェネレータの両方の二重最適化を行う。
提案手法は,SAMPとPROXの動作を用いて評価し,従来のキネマティクス法と比較して,物理的に妥当なシーンレイアウトの再構築を示す。
論文 参考訳(メタデータ) (2024-05-21T02:36:37Z) - SimEndoGS: Efficient Data-driven Scene Simulation using Robotic Surgery Videos via Physics-embedded 3D Gaussians [19.590481146949685]
立体内視鏡画像から3D Gaussianを学習可能な手術シーンの表現として紹介する。
本研究では3次元ガウスに物理特性を統合したマテリアルポイント法を適用し,現実的なシーン変形を実現する。
以上の結果から,内視鏡的画像から外科的シーンを効率的に再構成し,シミュレートし,外科的シーンを再構築するのにほんの数分しか要しないことが明らかとなった。
論文 参考訳(メタデータ) (2024-05-02T02:34:19Z) - Learning Motion Priors for 4D Human Body Capture in 3D Scenes [81.54377747405812]
LEMO: LEMO: LEARING Human Motion priors for 4D human body capture。
提案手法では, 連続して復元されたポーズによって現れるジッタを減少させる新規な動きを事前に導入する。
また, 接触摩擦項と, 物体ごとの自己監督訓練により得られる接触認識運動充填剤を設計した。
パイプラインでは、高品質な4D人体撮影、スムーズな動きの再構築、身体とシーンの相互作用を実演しています。
論文 参考訳(メタデータ) (2021-08-23T20:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。