論文の概要: STORM: Spatio-Temporal Reconstruction Model for Large-Scale Outdoor Scenes
- arxiv url: http://arxiv.org/abs/2501.00602v1
- Date: Tue, 31 Dec 2024 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:49.877937
- Title: STORM: Spatio-Temporal Reconstruction Model for Large-Scale Outdoor Scenes
- Title(参考訳): STORM:大規模屋外シーンの時空間再構成モデル
- Authors: Jiawei Yang, Jiahui Huang, Yuxiao Chen, Yan Wang, Boyi Li, Yurong You, Apoorva Sharma, Maximilian Igl, Peter Karkus, Danfei Xu, Boris Ivanovic, Yue Wang, Marco Pavone,
- Abstract要約: STORMは、スパース観測から動的屋外シーンを再構成するために設計された時間的再構成モデルである。
本稿では,STORMが最先端のシーンごとの最適化手法を超越して,正確な動的シーン再構成を実現することを示す。
また、より広いダイナミックなシーン理解のための自己教師あり学習の可能性を示す4つのモデル応用についても紹介する。
- 参考スコア(独自算出の注目度): 47.4799413169038
- License:
- Abstract: We present STORM, a spatio-temporal reconstruction model designed for reconstructing dynamic outdoor scenes from sparse observations. Existing dynamic reconstruction methods often rely on per-scene optimization, dense observations across space and time, and strong motion supervision, resulting in lengthy optimization times, limited generalization to novel views or scenes, and degenerated quality caused by noisy pseudo-labels for dynamics. To address these challenges, STORM leverages a data-driven Transformer architecture that directly infers dynamic 3D scene representations--parameterized by 3D Gaussians and their velocities--in a single forward pass. Our key design is to aggregate 3D Gaussians from all frames using self-supervised scene flows, transforming them to the target timestep to enable complete (i.e., "amodal") reconstructions from arbitrary viewpoints at any moment in time. As an emergent property, STORM automatically captures dynamic instances and generates high-quality masks using only reconstruction losses. Extensive experiments on public datasets show that STORM achieves precise dynamic scene reconstruction, surpassing state-of-the-art per-scene optimization methods (+4.3 to 6.6 PSNR) and existing feed-forward approaches (+2.1 to 4.7 PSNR) in dynamic regions. STORM reconstructs large-scale outdoor scenes in 200ms, supports real-time rendering, and outperforms competitors in scene flow estimation, improving 3D EPE by 0.422m and Acc5 by 28.02%. Beyond reconstruction, we showcase four additional applications of our model, illustrating the potential of self-supervised learning for broader dynamic scene understanding.
- Abstract(参考訳): スパース観測から動的屋外シーンの再構成を目的とした時空間再構成モデルSTORMを提案する。
既存の動的再構成手法は、しばしばシーンごとの最適化、空間と時間にわたる密集した観察、強い動きの監督に頼っており、その結果、長い最適化時間、新しいビューやシーンへの一般化に制限され、ダイナミックスのためのノイズの多い擬似ラベルによって生じる品質が劣化する。
これらの課題に対処するため、STORMはデータ駆動のTransformerアーキテクチャを活用し、ダイナミックな3Dシーン表現を直接推論する。
我々のキーとなる設計は、自己監督されたシーンフローを使用して全てのフレームから3Dガウスアンを集約し、ターゲットのタイムステップに変換することで、任意の視点からいつでも完全な(つまり「アモーダル」)再構築を可能にすることである。
緊急性として、STORMは動的インスタンスを自動的にキャプチャし、再構築損失のみを使用して高品質なマスクを生成する。
公開データセットに対する大規模な実験により、STORMは動的領域における最先端のシーンごとの最適化手法(+4.3から6.6 PSNR)と既存のフィードフォワードアプローチ(+2.1から4.7 PSNR)を超越した正確な動的シーン再構築を実現することが示された。
STORMは200msで大規模な屋外シーンを再構築し、リアルタイムレンダリングをサポートし、シーンフローの推定においてライバルより優れており、3D EPEを0.422m、Acc5を28.02%改善している。
再構築以外にも、より広いダイナミックなシーン理解のための自己教師あり学習の可能性を示す4つのモデル応用を紹介した。
関連論文リスト
- 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [116.2042238179433]
本稿では,動的シーンを非拘束な4次元ボリューム学習問題とみなす。
本研究では,4次元ガウス原始体の集合を対象とした動的シーンを明示的な幾何学的特徴と外観的特徴で表現する。
このアプローチは、下層のフォトリアリスティック時間体積を適合させることで、空間と時間の関連情報をキャプチャすることができる。
特に、我々の4DGSモデルは、複雑なダイナミックシーンのための、高解像度で斬新なビューのリアルタイムレンダリングをサポートする最初のソリューションです。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - 4D Gaussian Splatting with Scale-aware Residual Field and Adaptive Optimization for Real-time Rendering of Temporally Complex Dynamic Scenes [19.24815625343669]
SaRO-GSはリアルタイムレンダリングを実現する新しい動的シーン表現である。
時間的に複雑な動的シーンを扱うために,スケールアウェアなResidual Fieldを導入する。
我々の手法は最先端の性能を実証した。
論文 参考訳(メタデータ) (2024-12-09T08:44:19Z) - Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos [101.48581851337703]
動的シーンのリアルタイム再構成と新しいビュー合成のための,モーション対応フィードフォワードモデルであるBTimerを提案する。
提案手法は,すべてのコンテキストフレームから情報を集約することにより,所定の目標("bullet')タイムスタンプにおける3次元ガウススティング表現の全体像を再構成する。
カジュアルなモノクロのダイナミックビデオが与えられた後、BTimerは150ms以内の弾道時間シーンを再構築し、静的および動的両方のシーンデータセットで最先端のパフォーマンスに到達した。
論文 参考訳(メタデータ) (2024-12-04T18:15:06Z) - Urban4D: Semantic-Guided 4D Gaussian Splatting for Urban Scene Reconstruction [86.4386398262018]
Urban4Dは、深い2Dセマンティックマップ生成の進歩に触発されたセマンティック誘導分解戦略である。
我々のアプローチは、信頼できるセマンティック・ガウシアンを通して潜在的に動的対象を区別する。
実世界のデータセットでの実験では、Urban4Dは従来の最先端の手法と同等または優れた品質を実現している。
論文 参考訳(メタデータ) (2024-12-04T16:59:49Z) - Dynamics-Aware Gaussian Splatting Streaming Towards Fast On-the-Fly Training for 4D Reconstruction [12.111389926333592]
現在の3DGSベースのストリーミング手法は、ガウス原始体を均一に扱い、密度化されたガウスを常に更新する。
そこで本研究では, 反復的流動性4次元動的空間再構成のための新しい3段階パイプラインを提案する。
提案手法は,オンライン4次元再構成における最先端性能を実現し,実時間トレーニング速度の20%向上,表現品質の向上,リアルタイムレンダリング能力の向上を実証する。
論文 参考訳(メタデータ) (2024-11-22T10:47:47Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。