論文の概要: UniSH: Unifying Scene and Human Reconstruction in a Feed-Forward Pass
- arxiv url: http://arxiv.org/abs/2601.01222v1
- Date: Sat, 03 Jan 2026 16:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.125851
- Title: UniSH: Unifying Scene and Human Reconstruction in a Feed-Forward Pass
- Title(参考訳): UniSH:フィードフォワードパスにおけるシーンと人間の再構築
- Authors: Mengfei Li, Peng Li, Zheng Zhang, Jiahao Lu, Chengfeng Zhao, Wei Xue, Qifeng Liu, Sida Peng, Wenxiao Zhang, Wenhan Luo, Yuan Liu, Yike Guo,
- Abstract要約: UniSHは、統合されたフィードフォワードフレームワークで、共同でメートルスケールの3Dシーンと人間の再構築を行う。
我々のフレームワークは、シーン再構築とHMRとの違いを強く橋渡しします。
本モデルは,人間中心のシーン再構築における最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 83.7071371474926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present UniSH, a unified, feed-forward framework for joint metric-scale 3D scene and human reconstruction. A key challenge in this domain is the scarcity of large-scale, annotated real-world data, forcing a reliance on synthetic datasets. This reliance introduces a significant sim-to-real domain gap, leading to poor generalization, low-fidelity human geometry, and poor alignment on in-the-wild videos. To address this, we propose an innovative training paradigm that effectively leverages unlabeled in-the-wild data. Our framework bridges strong, disparate priors from scene reconstruction and HMR, and is trained with two core components: (1) a robust distillation strategy to refine human surface details by distilling high-frequency details from an expert depth model, and (2) a two-stage supervision scheme, which first learns coarse localization on synthetic data, then fine-tunes on real data by directly optimizing the geometric correspondence between the SMPL mesh and the human point cloud. This approach enables our feed-forward model to jointly recover high-fidelity scene geometry, human point clouds, camera parameters, and coherent, metric-scale SMPL bodies, all in a single forward pass. Extensive experiments demonstrate that our model achieves state-of-the-art performance on human-centric scene reconstruction and delivers highly competitive results on global human motion estimation, comparing favorably against both optimization-based frameworks and HMR-only methods. Project page: https://murphylmf.github.io/UniSH/
- Abstract(参考訳): We present UniSH, a unified, feed-forward framework for joint metric-scale 3D scene and human reconstruction。
この領域における重要な課題は、大規模で注釈付き現実世界データの不足であり、合成データセットに頼らざるを得ないことだ。
この依存は、現実的なドメインギャップを著しく引き起こし、一般化の貧弱、人体幾何学の低忠実度化、Wildでの動画のアライメントの低さをもたらす。
そこで本研究では,未ラベルデータを活用した革新的なトレーニングパラダイムを提案する。
筆者らのフレームワークは, 現場復元とHMRとの違いを強く橋渡しし, 1) 専門家の深度モデルから高頻度の詳細を蒸留し, 人間の表面の細部を精錬する頑健な蒸留戦略, 2) SMPLメッシュと人点雲の幾何学的対応を直接最適化して, 実データ上で粗い局所化を学習する2段階の監督スキームの2つのコアコンポーネントで訓練する。
このアプローチにより、フィードフォワードモデルにより、高忠実度シーン形状、人点雲、カメラパラメータ、コヒーレントでメートルスケールのSMPLボディを1つの前方パスで共同で復元することができる。
大規模な実験により,本モデルが人間中心のシーン再構成における最先端性能を実現し,グローバルな人間の動き推定に高い競争力を与え,最適化ベースのフレームワークとHMRのみの手法とを比較した。
プロジェクトページ:https://murphylmf.github.io/UniSH/
関連論文リスト
- Dynamic Avatar-Scene Rendering from Human-centric Context [75.95641456716373]
分離されたモデルと最適化されたモデルをブリッジするbf分離マップ(StM)戦略を提案する。
StMは、視覚的品質とレンダリングの精度の両方において、既存の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-11-13T17:39:06Z) - Latent-Info and Low-Dimensional Learning for Human Mesh Recovery and Parallel Optimization [9.929988374685964]
既存の3Dヒューマンメッシュリカバリ手法は、潜伏した情報を十分に活用できないことが多い。
本稿では,潜伏情報と低次元学習に基づくメッシュ回復のための2段階ネットワークを提案する。
論文 参考訳(メタデータ) (2025-10-21T03:35:12Z) - BlendCLIP: Bridging Synthetic and Real Domains for Zero-Shot 3D Object Classification with Multimodal Pretraining [2.400704807305413]
ゼロショットの3Dオブジェクト分類は、自動運転のような現実世界のアプリケーションには不可欠だ。
トレーニングに使用される合成データと、現実世界で遭遇するノイズの多いLiDARスキャンとの間の大きな領域ギャップによって、しばしば妨げられる。
BlendCLIPは、両ドメインの強みを戦略的に組み合わせることで、この合成と現実のギャップを橋渡しするマルチモーダル事前学習フレームワークである。
論文 参考訳(メタデータ) (2025-10-21T03:08:27Z) - Exploring Disentangled and Controllable Human Image Synthesis: From End-to-End to Stage-by-Stage [34.72900198337818]
そこで我々は,新しい非絡み合い・制御可能な人間合成タスクを導入する。
本稿ではまず,MVHumanNetで学習した要素不絡に対するエンドツーエンド生成モデルを提案する。
VTONデータセットを付加データとして組み込むことで、エンドツーエンドモデルをトレーニングすることはパフォーマンスを劣化させる。
本稿では,人間の画像生成を3段階に分解するステージバイステージフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-25T09:23:20Z) - Reconstructing People, Places, and Cameras [57.81696692335401]
Humans and Structure from Motion (HSfM) は、メカニカルワールド座標系において、複数の人メッシュ、シーンポイント雲、カメラパラメータを共同で再構築する手法である。
以上の結果から,SfMパイプラインに人体データを組み込むことで,カメラのポーズ推定が改善された。
論文 参考訳(メタデータ) (2024-12-23T18:58:34Z) - Back to MLP: A Simple Baseline for Human Motion Prediction [59.18776744541904]
本稿では、歴史的に観察されたシーケンスから将来の身体のポーズを予測することによる、人間の動作予測の課題に取り組む。
これらの手法の性能は、0.14Mパラメータしか持たない軽量で純粋にアーキテクチャアーキテクチャによって超えることができることを示す。
Human3.6M, AMASS, 3DPWデータセットの徹底的な評価は, siMLPeをダブした我々の手法が, 他のアプローチよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2022-07-04T16:35:58Z) - Style-Hallucinated Dual Consistency Learning for Domain Generalized
Semantic Segmentation [117.3856882511919]
本稿では、ドメインシフトを処理するためのStyle-HAllucinated Dual consistEncy Learning(SHADE)フレームワークを提案する。
SHADEは3つの実世界のデータセットの平均mIoUに対して5.07%と8.35%の精度で改善し、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-06T02:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。