論文の概要: Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos
- arxiv url: http://arxiv.org/abs/2412.03526v1
- Date: Wed, 04 Dec 2024 18:15:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:09:15.375975
- Title: Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos
- Title(参考訳): 単眼映像からの動的シーンのフィードフォワード時間再構成
- Authors: Hanxue Liang, Jiawei Ren, Ashkan Mirzaei, Antonio Torralba, Ziwei Liu, Igor Gilitschenski, Sanja Fidler, Cengiz Oztireli, Huan Ling, Zan Gojcic, Jiahui Huang,
- Abstract要約: 動的シーンのリアルタイム再構成と新しいビュー合成のための,モーション対応フィードフォワードモデルであるBTimerを提案する。
提案手法は,すべてのコンテキストフレームから情報を集約することにより,所定の目標("bullet')タイムスタンプにおける3次元ガウススティング表現の全体像を再構成する。
カジュアルなモノクロのダイナミックビデオが与えられた後、BTimerは150ms以内の弾道時間シーンを再構築し、静的および動的両方のシーンデータセットで最先端のパフォーマンスに到達した。
- 参考スコア(独自算出の注目度): 101.48581851337703
- License:
- Abstract: Recent advancements in static feed-forward scene reconstruction have demonstrated significant progress in high-quality novel view synthesis. However, these models often struggle with generalizability across diverse environments and fail to effectively handle dynamic content. We present BTimer (short for BulletTimer), the first motion-aware feed-forward model for real-time reconstruction and novel view synthesis of dynamic scenes. Our approach reconstructs the full scene in a 3D Gaussian Splatting representation at a given target ('bullet') timestamp by aggregating information from all the context frames. Such a formulation allows BTimer to gain scalability and generalization by leveraging both static and dynamic scene datasets. Given a casual monocular dynamic video, BTimer reconstructs a bullet-time scene within 150ms while reaching state-of-the-art performance on both static and dynamic scene datasets, even compared with optimization-based approaches.
- Abstract(参考訳): 静的フィードフォワードシーン再構築の最近の進歩は、高品質な新規ビュー合成において大きな進歩を見せている。
しかし、これらのモデルは様々な環境における一般化可能性に苦しむことが多く、動的コンテンツを効果的に扱えない。
本稿では、動的シーンのリアルタイム再構成と新しいビュー合成のための、最初のモーション対応フィードフォワードモデルであるBTimer(BulletTimerの略)を紹介する。
提案手法は,すべてのコンテキストフレームから情報を集約することにより,所定の目標("bullet')タイムスタンプにおける3次元ガウススティング表現の全体像を再構成する。
このような定式化により、BTimerは静的と動的の両方のシーンデータセットを活用することにより、スケーラビリティと一般化を得ることができる。
カジュアルなモノクロのダイナミックビデオが与えられた場合、BTimerは150ms以内の弾道時間シーンを再構築し、静的および動的シーンデータセットの最先端のパフォーマンスを最適化ベースのアプローチと比較する。
関連論文リスト
- DENSER: 3D Gaussians Splatting for Scene Reconstruction of Dynamic Urban Environments [0.0]
動的オブジェクトの表現を大幅に強化するフレームワークであるDENSERを提案する。
提案手法は最先端の手法を広いマージンで大幅に上回る。
論文 参考訳(メタデータ) (2024-09-16T07:11:58Z) - Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - Periodic Vibration Gaussian: Dynamic Urban Scene Reconstruction and Real-time Rendering [36.111845416439095]
周期振動ガウスモデル(PVG)を提案する。
PVGは、当初静的シーン表現のために設計された効率的な3Dガウススプラッティング技術に基づいている。
PVGは、最良の代替品よりも900倍の速度でレンダリングできる。
論文 参考訳(メタデータ) (2023-11-30T13:53:50Z) - Dynamic 3D Gaussians: Tracking by Persistent Dynamic View Synthesis [58.5779956899918]
動的シーンビュー合成と6自由度(6-DOF)追跡のタスクを同時に処理する手法を提案する。
我々は、シーンを3Dガウスアンのコレクションとしてモデル化する最近の研究に触発された、分析バイシンセサイザーの枠組みに従う。
我々は,1人称視点合成,動的合成シーン合成,4次元映像編集など,我々の表現によって実現された多数のダウンストリームアプリケーションを紹介した。
論文 参考訳(メタデータ) (2023-08-18T17:59:21Z) - Efficient 3D Reconstruction, Streaming and Visualization of Static and
Dynamic Scene Parts for Multi-client Live-telepresence in Large-scale
Environments [6.543101569579952]
本研究では,静的シーンと動的シーンの双方で,部屋規模を超えて大規模環境下での3Dライブテレプレゼンス体験の共有を目指す。
我々のシステムは、リアルタイムに近い速度でVRベースのライブテレプレゼンスを実現することができる。
論文 参考訳(メタデータ) (2022-11-25T18:59:54Z) - wildNeRF: Complete view synthesis of in-the-wild dynamic scenes captured
using sparse monocular data [16.7345472998388]
本稿では,動的非構造シーンの新規視点合成のために,自己教師付きで学習可能な新しいニューラルラジアンスモデルを提案する。
我々のエンドツーエンドのトレーニング可能なアルゴリズムは、数秒で非常に複雑で現実世界の静的なシーンを学習し、数分で剛性と非剛性の両方のダイナミックなシーンを学習する。
論文 参考訳(メタデータ) (2022-09-20T14:37:56Z) - STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic
Cross-Modal Understanding [68.96574451918458]
静的分岐と動的分岐を用いて視覚言語依存をモデル化するSTVGというフレームワークを提案する。
静的分岐と動的分岐は、クロスモーダルトランスとして設計されている。
提案手法は39.6%のvIoUを達成し,HC-STVGの第1位を獲得した。
論文 参考訳(メタデータ) (2022-07-06T15:48:58Z) - Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。
カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2021-05-13T17:59:50Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。