論文の概要: StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams
- arxiv url: http://arxiv.org/abs/2506.08862v1
- Date: Tue, 10 Jun 2025 14:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.657246
- Title: StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams
- Title(参考訳): StreamSplat: 未校正ビデオストリームからのオンライン動的3D再構成を目指す
- Authors: Zike Wu, Qi Yan, Xuanyu Yi, Lele Wang, Renjie Liao,
- Abstract要約: 映像ストリームから動的3Dシーンをリアルタイムに再現することは、多くの実世界のアプリケーションにとって不可欠である。
任意の長さの動画ストリームを動的3D表現にオンラインで変換する,最初の完全なフィードフォワードフレームワークであるStreamSplatを紹介した。
- 参考スコア(独自算出の注目度): 14.211339652447462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time reconstruction of dynamic 3D scenes from uncalibrated video streams is crucial for numerous real-world applications. However, existing methods struggle to jointly address three key challenges: 1) processing uncalibrated inputs in real time, 2) accurately modeling dynamic scene evolution, and 3) maintaining long-term stability and computational efficiency. To this end, we introduce StreamSplat, the first fully feed-forward framework that transforms uncalibrated video streams of arbitrary length into dynamic 3D Gaussian Splatting (3DGS) representations in an online manner, capable of recovering scene dynamics from temporally local observations. We propose two key technical innovations: a probabilistic sampling mechanism in the static encoder for 3DGS position prediction, and a bidirectional deformation field in the dynamic decoder that enables robust and efficient dynamic modeling. Extensive experiments on static and dynamic benchmarks demonstrate that StreamSplat consistently outperforms prior works in both reconstruction quality and dynamic scene modeling, while uniquely supporting online reconstruction of arbitrarily long video streams. Code and models are available at https://github.com/nickwzk/StreamSplat.
- Abstract(参考訳): 映像ストリームから動的3Dシーンをリアルタイムに再現することは、多くの実世界のアプリケーションにとって不可欠である。
しかし、既存の手法は3つの重要な課題に共同で取り組むのに苦労している。
1)未校正入力をリアルタイムに処理すること。
2)ダイナミックシーンの進化を正確にモデル化し,
3)長期の安定性と計算効率の維持。
そこで本研究では,任意の長さの動画ストリームを動的3次元ガウススプラッティング(3DGS)表現に変換するための,最初のフルフィードフォワードフレームワークであるStreamSplatを紹介した。
本稿では,3DGS位置予測のための静的エンコーダにおける確率的サンプリング機構と,ロバストかつ効率的な動的モデリングを可能にする動的デコーダにおける双方向変形場と,2つの技術革新を提案する。
静的および動的ベンチマークに関する大規模な実験は、StreamSplatが再生品質と動的シーンモデリングの両方において、従来よりも一貫して優れており、任意に長いビデオストリームのオンライン再構成を一意にサポートしていることを示している。
コードとモデルはhttps://github.com/nickwzk/StreamSplat.comで公開されている。
関連論文リスト
- 3D Gaussian Splatting against Moving Objects for High-Fidelity Street Scene Reconstruction [1.2603104712715607]
本稿では,ダイナミックストリートシーン再構築のための新しい3次元ガウス点分布法を提案する。
提案手法では,高忠実度な静的シーンを保存しながらオブジェクトの移動を除去する。
実験により, 大規模動的環境における再現性の向上, レンダリング性能の向上, 適応性の向上が示された。
論文 参考訳(メタデータ) (2025-03-15T05:41:59Z) - Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos [101.48581851337703]
動的シーンのリアルタイム再構成と新しいビュー合成のための,モーション対応フィードフォワードモデルであるBTimerを提案する。
提案手法は,すべてのコンテキストフレームから情報を集約することにより,所定の目標("bullet')タイムスタンプにおける3次元ガウススティング表現の全体像を再構成する。
カジュアルなモノクロのダイナミックビデオが与えられた後、BTimerは150ms以内の弾道時間シーンを再構築し、静的および動的両方のシーンデータセットで最先端のパフォーマンスに到達した。
論文 参考訳(メタデータ) (2024-12-04T18:15:06Z) - Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction [50.873820265165975]
本稿では,高時間分解能連続運動データと動的シーン再構成のための変形可能な3D-GSを併用したイベントカメラについて紹介する。
本稿では、3次元再構成としきい値モデリングの両方を大幅に改善する相互強化プロセスを作成するGS-Thresholdジョイントモデリング戦略を提案する。
提案手法は,合成および実世界の動的シーンを用いた最初のイベント包摂型4Dベンチマークであり,その上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T08:23:38Z) - Dynamics-Aware Gaussian Splatting Streaming Towards Fast On-the-Fly 4D Reconstruction [15.588032729272536]
現在の3DGSベースのストリーミング手法は、ガウス原始体を均一に扱い、密度の高いガウスを常に更新する。
そこで本研究では, 反復的流動性4次元動的空間再構成のための新しい3段階パイプラインを提案する。
提案手法は,オンライン4次元再構成における最先端性能を実現し,最速のオンザフライトレーニング,優れた表現品質,リアルタイムレンダリング能力を示す。
論文 参考訳(メタデータ) (2024-11-22T10:47:47Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。