論文の概要: SimRecon: SimReady Compositional Scene Reconstruction from Real Videos
- arxiv url: http://arxiv.org/abs/2603.02133v2
- Date: Tue, 03 Mar 2026 14:00:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 14:54:12.720356
- Title: SimRecon: SimReady Compositional Scene Reconstruction from Real Videos
- Title(参考訳): SimRecon: リアルビデオから合成シーンを再現するSimReady
- Authors: Chong Xia, Kai Zhu, Zizhuo Wang, Fangfu Liu, Zhizheng Zhang, Yueqi Duan,
- Abstract要約: 構成シーンの再構築は、現実世界のビデオの全体像ではなく、オブジェクト中心の表現を作ろうとしている。
シムレコン(SimRecon)は「知覚生成シミュレーション」パイプラインを乱れたシーン再構成に向けて実現したフレームワークである。
- 参考スコア(独自算出の注目度): 32.616029685189744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional scene reconstruction seeks to create object-centric representations rather than holistic scenes from real-world videos, which is natively applicable for simulation and interaction. Conventional compositional reconstruction approaches primarily emphasize on visual appearance and show limited generalization ability to real-world scenarios. In this paper, we propose SimRecon, a framework that realizes a "Perception-Generation-Simulation" pipeline towards cluttered scene reconstruction, which first conducts scene-level semantic reconstruction from video input, then performs single-object generation, and finally assembles these assets in the simulator. However, naively combining these three stages leads to visual infidelity of generated assets and physical implausibility of the final scene, a problem particularly severe for complex scenes. Thus, we further propose two bridging modules between the three stages to address this problem. To be specific, for the transition from Perception to Generation, critical for visual fidelity, we introduce Active Viewpoint Optimization, which actively searches in 3D space to acquire optimal projected images as conditions for single-object completion. Moreover, for the transition from Generation to Simulation, essential for physical plausibility, we propose a Scene Graph Synthesizer, which guides the construction from scratch in 3D simulators, mirroring the native, constructive principle of the real world. Extensive experiments on the ScanNet dataset validate our method's superior performance over previous state-of-the-art approaches.
- Abstract(参考訳): 構成シーンの再構成は、シミュレーションやインタラクションにネイティブに適用可能な、現実世界のビデオの全体像ではなく、オブジェクト中心の表現を作ろうとする。
コンストラクショナルコンストラクショナル・コンストラクショナル・コンストラクショナル・コンストラクショナル・コンストラクショナル・アプローチは、視覚的外観を重視し、現実のシナリオに対する限定的な一般化能力を示す。
本稿では,まず映像入力からシーンレベルのセマンティック再構築を行い,次に単一オブジェクト生成を行い,最終的にこれらのアセットをシミュレータに組み込む,"知覚生成シミュレーション"パイプラインを実現するフレームワークであるSimReconを提案する。
しかし、これらの3つのステージを鼻で組み合わせることで、生成した資産の視覚的不完全性と最終シーンの物理的不確実性は、特に複雑なシーンでは深刻な問題となる。
そこで本研究では, この問題を解決するために, 3段階間のブリッジングモジュールを2つ提案する。
具体的には、視覚的忠実度に重要な知覚から生成への遷移について、3次元空間を積極的に探索し、単一のオブジェクトの完了条件として最適な投影画像を取得するActive Viewpoint Optimizationを導入する。
さらに, 実世界の自然的, 建設的原理を反映して, 3次元シミュレータのスクラッチから構築を導くScene Graph Synthesizerを提案する。
ScanNetデータセットの大規模な実験は、これまでの最先端のアプローチよりも、我々のメソッドの優れたパフォーマンスを検証する。
関連論文リスト
- Simulation-Ready Cluttered Scene Estimation via Physics-aware Joint Shape and Pose Optimization [27.083888910311984]
実世界の観測からシミュレーション可能なシーンを推定することは、下流の計画と政策学習タスクに不可欠である。
既存の手法は乱雑な環境で苦労する。
実写シーン推定のための統一的な最適化に基づく定式化を提案する。
論文 参考訳(メタデータ) (2026-02-23T18:58:24Z) - SPARK: Sim-ready Part-level Articulated Reconstruction with VLM Knowledge [22.64986854574998]
アーティキュレートされた3Dオブジェクトは、AI、ロボティクス、インタラクティブなシーン理解に不可欠である。
SPARKは1枚のRGB画像から物理的に一貫した運動的部分レベルの調音オブジェクトを再構成するフレームワークである。
論文 参考訳(メタデータ) (2025-12-01T12:51:56Z) - HoloScene: Simulation-Ready Interactive 3D Worlds from a Single Video [25.898073594115413]
HoloSceneはインタラクティブな3D再構成フレームワークである。
オブジェクトの幾何学、外観、物理的特性を階層的およびオブジェクト間関係と共に符号化する。
得られたデジタル双生児は、新しい視点から完全な正確な幾何学、物理的安定性、現実的なレンダリングを示す。
論文 参考訳(メタデータ) (2025-10-07T04:12:18Z) - IGFuse: Interactive 3D Gaussian Scene Reconstruction via Multi-Scans Fusion [15.837932667195037]
IGFuseは対話型ガウスシーンを複数のスキャンから観測することで再構成する新しいフレームワークである。
本手法は,ガウス場を意識したセグメンテーションを構築し,スキャン間の双方向光度・セマンティック一貫性を実現する。
IGFuseは、密度の高い観測や複雑なパイプラインを使わずに、高忠実なレンダリングとオブジェクトレベルのシーン操作を可能にする。
論文 参考訳(メタデータ) (2025-08-18T17:59:47Z) - HumanGenesis: Agent-Based Geometric and Generative Modeling for Synthetic Human Dynamics [60.737929335600015]
4つの協調エージェントを通して幾何学的および生成的モデリングを統合するフレームワークである textbfHumanGenesis を提示する。
HumanGenesisは、テキスト誘導合成、ビデオ再現、新規目的一般化といったタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-13T14:50:19Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [89.77871049500546]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - SimVS: Simulating World Inconsistencies for Robust View Synthesis [102.83898965828621]
本稿では、生成ビデオモデルを利用して、キャプチャ中に起こりうる世界の不整合をシミュレートする手法を提案する。
我々の世界シミュレーション戦略は、現実のシーンのバリエーションを扱う上で、従来の拡張手法よりも大幅に優れていることを実証する。
論文 参考訳(メタデータ) (2024-12-10T17:35:12Z) - Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model
Alignments [81.38641691636847]
エンボディエージェントの観点から,シーン再構築の問題を再考する。
rgb-dデータストリームを用いてインタラクティブシーンを再構築する。
この再構成されたシーンは、密集したパノプティカルマップのオブジェクトメッシュを、部分ベースのCADモデルに置き換える。
論文 参考訳(メタデータ) (2021-03-30T05:56:58Z) - GeoSim: Photorealistic Image Simulation with Geometry-Aware Composition [81.24107630746508]
GeoSimは、新しい都市の運転シーンを合成するジオメトリ認識の画像合成プロセスです。
まず、センサーデータからリアルな形状と外観の両方を備えた多様な3Dオブジェクトのバンクを構築します。
得られた合成画像は、フォトリアリズム、トラフィック認識、幾何学的一貫性があり、画像シミュレーションが複雑なユースケースにスケールできる。
論文 参考訳(メタデータ) (2021-01-16T23:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。