論文の概要: PhySIC: Physically Plausible 3D Human-Scene Interaction and Contact from a Single Image
- arxiv url: http://arxiv.org/abs/2510.11649v1
- Date: Mon, 13 Oct 2025 17:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.478291
- Title: PhySIC: Physically Plausible 3D Human-Scene Interaction and Contact from a Single Image
- Title(参考訳): PhySIC: 物理的にプラザブルな3次元人間とシーンのインタラクションと1枚の画像からの接触
- Authors: Pradyumna Yalandur Muralidhar, Yuxuan Xue, Xianghui Xie, Margaret Kostyrko, Gerard Pons-Moll,
- Abstract要約: PhySICは物理的に妥当なヒューマン・シーンインタラクションとコンタクト再構築のためのフレームワークである。
単一のRGB画像から、メトリック一貫性のあるSMPL-Xヒューマンメッシュ、密集したシーン表面、および共有座標フレーム内のコンタクトマップを復元する。
PhySICは効率的で、人間の共同最適化にわずか9秒、エンドツーエンドに27秒以下しか必要としない。
- 参考スコア(独自算出の注目度): 22.340803446336196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reconstructing metrically accurate humans and their surrounding scenes from a single image is crucial for virtual reality, robotics, and comprehensive 3D scene understanding. However, existing methods struggle with depth ambiguity, occlusions, and physically inconsistent contacts. To address these challenges, we introduce PhySIC, a framework for physically plausible Human-Scene Interaction and Contact reconstruction. PhySIC recovers metrically consistent SMPL-X human meshes, dense scene surfaces, and vertex-level contact maps within a shared coordinate frame from a single RGB image. Starting from coarse monocular depth and body estimates, PhySIC performs occlusion-aware inpainting, fuses visible depth with unscaled geometry for a robust metric scaffold, and synthesizes missing support surfaces like floors. A confidence-weighted optimization refines body pose, camera parameters, and global scale by jointly enforcing depth alignment, contact priors, interpenetration avoidance, and 2D reprojection consistency. Explicit occlusion masking safeguards invisible regions against implausible configurations. PhySIC is efficient, requiring only 9 seconds for joint human-scene optimization and under 27 seconds end-to-end. It naturally handles multiple humans, enabling reconstruction of diverse interactions. Empirically, PhySIC outperforms single-image baselines, reducing mean per-vertex scene error from 641 mm to 227 mm, halving PA-MPJPE to 42 mm, and improving contact F1 from 0.09 to 0.51. Qualitative results show realistic foot-floor interactions, natural seating, and plausible reconstructions of heavily occluded furniture. By converting a single image into a physically plausible 3D human-scene pair, PhySIC advances scalable 3D scene understanding. Our implementation is publicly available at https://yuxuan-xue.com/physic.
- Abstract(参考訳): バーチャルリアリティー、ロボティクス、総合的な3Dシーン理解には、計測精度の高い人間とその周囲のシーンを1つの画像から再構築することが不可欠だ。
しかし、既存の手法は奥行きの曖昧さ、閉塞、物理的に矛盾した接触に悩まされている。
これらの課題に対処するために,物理的に検証可能なヒューマン・シーンインタラクションとコンタクト再構築のためのフレームワークであるPhySICを紹介した。
PhySICは、単一のRGB画像から、メトリック一貫性のあるSMPL-Xヒューマンメッシュ、密集したシーン表面、および共有座標フレーム内の頂点レベルのコンタクトマップを復元する。
粗い単分子深度と体の推定から始め、PhySICはオクルージョンを意識した塗装を行い、ロバストなメートル法足場のための未スケールの幾何学と融合し、床のような欠落した支持面を合成する。
信頼度重み付け最適化は、深度アライメント、接触先、相互接続回避、2次元再投影の一貫性を共同で強化することにより、ボディポーズ、カメラパラメータ、グローバルスケールを洗練させる。
明示的な隠蔽マスクは、不可解な構成から見えない領域を保護します。
PhySICは効率的で、人間の共同最適化にわずか9秒、エンドツーエンドに27秒以下しか必要としない。
自然に複数の人間を処理し、多様な相互作用の再構築を可能にする。
実証的には、PhySICはシングルイメージのベースラインよりも優れ、平均頂点当たりのシーンエラーを641 mmから227 mmに減らし、PA-MPJPEを42 mmに半減させ、接触F1を0.09から0.51に改善した。
質的な結果から, 床と床のリアルな相互作用, 自然座位, 密閉家具の可視的再構築が示された。
PhySICは、単一の画像を物理的に可視な3Dシーンペアに変換することで、スケーラブルな3Dシーン理解を促進する。
私たちの実装はhttps://yuxuan-xue.com/physic.comで公開されています。
関連論文リスト
- Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning [50.76723760768117]
既存の人間のポーズ推定手法では、既存の映像からもっともらしい密接な相互作用を回復できない。
人間の外見は、これらの障害に対処するための簡単な手がかりとなる。
本研究では,人間の外見,社会的プロキシ,物理法則に制約された身体接触により,正確な対話動作を再構築するための2分岐最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T12:19:26Z) - 3D Reconstruction of Interacting Multi-Person in Clothing from a Single Image [8.900009931200955]
本稿では,1つの画像からグローバルなコヒーレントなシーン空間上の衣服の多人数インタラクションの形状を再構築する,新しいパイプラインを提案する。
この課題を克服するために、人間の2つの先駆体を完全な3次元形状と表面接触に活用する。
その結果,本手法は既存の手法と比較して完全で,グローバルに一貫性があり,物理的に妥当であることがわかった。
論文 参考訳(メタデータ) (2024-01-12T07:23:02Z) - DECO: Dense Estimation of 3D Human-Scene Contact In The Wild [54.44345845842109]
SMPL体上の接触を推定するために、身体部分駆動とシーンコンテキスト駆動の両方の注意を用いた新しい3D接触検出器を訓練する。
すべてのベンチマークで既存のSOTAメソッドよりも大幅に優れています。
また、DECが自然画像における多様で挑戦的な現実世界の人間のインタラクションによく当てはまることを定性的に示す。
論文 参考訳(メタデータ) (2023-09-26T21:21:07Z) - Physically Plausible 3D Human-Scene Reconstruction from Monocular RGB
Image using an Adversarial Learning Approach [26.827712050966]
総合的な3次元人間シーン再構築の鍵となる課題は、単一の単眼RGB画像から物理的に可視な3Dシーンを生成することである。
本稿では、シーン要素の暗黙的特徴表現を用いて、人間と物体の物理的に妥当なアライメントを識別する。
既存の推論時間最適化手法とは異なり、この逆向きに訓練されたモデルを用いてシーンのフレームごとの3D再構成を行う。
論文 参考訳(メタデータ) (2023-07-27T01:07:15Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Human-Aware Object Placement for Visual Environment Reconstruction [63.14733166375534]
我々は,モノクラーRGBビデオからシーンの3次元再構成を改善するために,人間とシーンのインタラクションを活用することができることを示す。
私たちのキーとなるアイデアは、人がシーンを移動してそれと対話するにつれて、複数の入力イメージにまたがってHSIを蓄積する、ということです。
シーン再構成は,初期3次元の人物のポーズと形状推定の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-07T18:59:02Z) - PLACE: Proximity Learning of Articulation and Contact in 3D Environments [70.50782687884839]
本研究では,人体と周囲の3Dシーンとの近接性をモデル化した新しいインタラクション生成手法PLACEを提案する。
我々の知覚学的研究は、PLACEが実際の人間とシーンの相互作用のリアリズムにアプローチし、最先端の手法を著しく改善することを示している。
論文 参考訳(メタデータ) (2020-08-12T21:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。