論文の概要: Asset-Driven Sematic Reconstruction of Dynamic Scene with Multi-Human-Object Interactions
- arxiv url: http://arxiv.org/abs/2512.00547v1
- Date: Sat, 29 Nov 2025 16:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.290383
- Title: Asset-Driven Sematic Reconstruction of Dynamic Scene with Multi-Human-Object Interactions
- Title(参考訳): マルチヒューマン・オブジェクト相互作用による動的シーンのアセット駆動セマティック再構成
- Authors: Sandika Biswas, Qianyi Wu, Biplab Banerjee, Hamid Rezatofighi,
- Abstract要約: ダイナミックシーンの3Dジオメトリモデリングは、AR/VR、ゲーム、エンボディAIといったアプリケーションに不可欠である。
本研究では,1)シーン要素の高忠実度メッシュを生成するための3次元生成モデルの利点と,2)シーン要素のセマンティック・アウェアな変形,3)GSに基づく個々の要素の最適化の利点を組み合わせたハイブリッドアプローチを提案する。
本手法は,これらのシーンのより優れた表面再構成を実現する上で,最先端の手法よりも優れる。
- 参考スコア(独自算出の注目度): 41.29588736908775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world human-built environments are highly dynamic, involving multiple humans and their complex interactions with surrounding objects. While 3D geometry modeling of such scenes is crucial for applications like AR/VR, gaming, and embodied AI, it remains underexplored due to challenges like diverse motion patterns and frequent occlusions. Beyond novel view rendering, 3D Gaussian Splatting (GS) has demonstrated remarkable progress in producing detailed, high-quality surface geometry with fast optimization of the underlying structure. However, very few GS-based methods address multihuman, multiobject scenarios, primarily due to the above-mentioned inherent challenges. In a monocular setup, these challenges are further amplified, as maintaining structural consistency under severe occlusion becomes difficult when the scene is optimized solely based on GS-based rendering loss. To tackle the challenges of such a multihuman, multiobject dynamic scene, we propose a hybrid approach that effectively combines the advantages of 1) 3D generative models for generating high-fidelity meshes of the scene elements, 2) Semantic-aware deformation, \ie rigid transformation of the rigid objects and LBS-based deformation of the humans, and mapping of the deformed high-fidelity meshes in the dynamic scene, and 3) GS-based optimization of the individual elements for further refining their alignments in the scene. Such a hybrid approach helps maintain the object structures even under severe occlusion and can produce multiview and temporally consistent geometry. We choose HOI-M3 for evaluation, as, to the best of our knowledge, this is the only dataset featuring multihuman, multiobject interactions in a dynamic scene. Our method outperforms the state-of-the-art method in producing better surface reconstruction of such scenes.
- Abstract(参考訳): 現実世界の人間が作った環境は非常にダイナミックで、複数の人間と周囲の物体との複雑な相互作用が伴う。
このようなシーンの3Dジオメトリモデリングは、AR/VR、ゲーム、エンボディAIといったアプリケーションには不可欠だが、多彩な動きパターンや頻繁なオクルージョンといった課題により、まだ探索されていない。
3D Gaussian Splatting (GS)は、新しいビューレンダリング以外にも、基礎構造を高速に最適化した細部で高品質な表面形状を創出する際、顕著な進歩を見せている。
しかし、上記の課題が原因で、GSベースの手法は多目的・多目的のシナリオにほとんど対応していない。
シーンがGSベースのレンダリングロスのみに基づいて最適化されると、厳しい閉塞下での構造的整合性を維持することが困難になるため、これらの課題はさらに増幅される。
このようなマルチヒューマン・マルチオブジェクト・ダイナミック・シーンの課題に対処するため,我々は,効果的に組み合わせたハイブリッド・アプローチを提案する。
1)シーン要素の高忠実度メッシュを生成するための3次元生成モデル。
2) 立体的変形, 剛体変形, およびLBSに基づく変形, 動的シーンにおける変形した高忠実メッシュのマッピング, そして
3)シーンのアライメントをさらに改善するために個々の要素をGSベースで最適化する。
このようなハイブリッドアプローチは、厳密な閉塞の下でも対象構造を維持するのに役立ち、多視点かつ時間的に一貫した幾何学を生成することができる。
評価にはHOI-M3を選択するが、私たちの知る限り、このデータセットは動的シーンにおけるマルチヒューマン、マルチオブジェクトのインタラクションを特徴とする唯一のデータセットである。
本手法は,これらのシーンのより優れた表面再構成を実現する上で,最先端の手法よりも優れる。
関連論文リスト
- LARM: A Large Articulated-Object Reconstruction Model [29.66486888001511]
LARMは、スパースビュー画像から3Dの明瞭なオブジェクトを再構成する統合フィードフォワードフレームワークである。
LARMは、ディープマップやパートマスクなどの補助出力を生成し、明示的な3Dメッシュ抽出と関節推定を容易にする。
我々のパイプラインは、密集した監視の必要性を排除し、多様な対象カテゴリにわたる高忠実度再構築をサポートする。
論文 参考訳(メタデータ) (2025-11-14T18:55:27Z) - Dynamic Avatar-Scene Rendering from Human-centric Context [75.95641456716373]
分離されたモデルと最適化されたモデルをブリッジするbf分離マップ(StM)戦略を提案する。
StMは、視覚的品質とレンダリングの精度の両方において、既存の最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-11-13T17:39:06Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - Adaptive and Temporally Consistent Gaussian Surfels for Multi-view Dynamic Reconstruction [3.9363268745580426]
AT-GSは、フレーム単位のインクリメンタル最適化により、多視点ビデオから高品質な動的曲面を再構成する新しい手法である。
連続するフレーム間の曲率写像の整合性を確保することにより、動的表面における時間的ジッタリングを低減する。
本手法は動的表面再構成の精度と時間的コヒーレンスを向上し,高忠実度空間時間新奇なビュー合成を実現する。
論文 参考訳(メタデータ) (2024-11-10T21:30:16Z) - SplatFields: Neural Gaussian Splats for Sparse 3D and 4D Reconstruction [24.33543853742041]
3Dガウススティング(3DGS)は実用的でスケーラブルな再構築手法として登場した。
暗黙的ニューラルネットワークの出力としてモデル化することで,スプレート特徴を効果的に正規化する最適化手法を提案する。
当社のアプローチは,異なるセットアップやシーンの複雑さをまたいだ広範なテストによって実証されるような,静的および動的ケースを効果的に処理する。
論文 参考訳(メタデータ) (2024-09-17T14:04:20Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。