Fugu-MT 論文翻訳(概要): Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos

論文の概要: Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos

arxiv url: http://arxiv.org/abs/2412.03526v1
Date: Wed, 04 Dec 2024 18:15:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.761822
Title: Feed-Forward Bullet-Time Reconstruction of Dynamic Scenes from Monocular Videos
Title（参考訳）: 単眼映像からの動的シーンのフィードフォワード時間再構成
Authors: Hanxue Liang, Jiawei Ren, Ashkan Mirzaei, Antonio Torralba, Ziwei Liu, Igor Gilitschenski, Sanja Fidler, Cengiz Oztireli, Huan Ling, Zan Gojcic, Jiahui Huang,
Abstract要約: 動的シーンのリアルタイム再構成と新しいビュー合成のための,モーション対応フィードフォワードモデルであるBTimerを提案する。提案手法は,すべてのコンテキストフレームから情報を集約することにより,所定の目標("bullet')タイムスタンプにおける3次元ガウススティング表現の全体像を再構成する。カジュアルなモノクロのダイナミックビデオが与えられた後、BTimerは150ms以内の弾道時間シーンを再構築し、静的および動的両方のシーンデータセットで最先端のパフォーマンスに到達した。
参考スコア（独自算出の注目度）: 101.48581851337703
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in static feed-forward scene reconstruction have demonstrated significant progress in high-quality novel view synthesis. However, these models often struggle with generalizability across diverse environments and fail to effectively handle dynamic content. We present BTimer (short for BulletTimer), the first motion-aware feed-forward model for real-time reconstruction and novel view synthesis of dynamic scenes. Our approach reconstructs the full scene in a 3D Gaussian Splatting representation at a given target ('bullet') timestamp by aggregating information from all the context frames. Such a formulation allows BTimer to gain scalability and generalization by leveraging both static and dynamic scene datasets. Given a casual monocular dynamic video, BTimer reconstructs a bullet-time scene within 150ms while reaching state-of-the-art performance on both static and dynamic scene datasets, even compared with optimization-based approaches.
Abstract（参考訳）: 静的フィードフォワードシーン再構築の最近の進歩は、高品質な新規ビュー合成において大きな進歩を見せている。しかし、これらのモデルは様々な環境における一般化可能性に苦しむことが多く、動的コンテンツを効果的に扱えない。本稿では、動的シーンのリアルタイム再構成と新しいビュー合成のための、最初のモーション対応フィードフォワードモデルであるBTimer(BulletTimerの略)を紹介する。提案手法は,すべてのコンテキストフレームから情報を集約することにより,所定の目標("bullet')タイムスタンプにおける3次元ガウススティング表現の全体像を再構成する。このような定式化により、BTimerは静的と動的の両方のシーンデータセットを活用することにより、スケーラビリティと一般化を得ることができる。カジュアルなモノクロのダイナミックビデオが与えられた場合、BTimerは150ms以内の弾道時間シーンを再構築し、静的および動的シーンデータセットの最先端のパフォーマンスを最適化ベースのアプローチと比較する。

関連論文リスト

STORM: Spatio-Temporal Reconstruction Model for Large-Scale Outdoor Scenes [47.4799413169038]
STORMは、スパース観測から動的屋外シーンを再構成するために設計された時間的再構成モデルである。本稿では,STORMが最先端のシーンごとの最適化手法を超越して,正確な動的シーン再構成を実現することを示す。また、より広いダイナミックなシーン理解のための自己教師あり学習の可能性を示す4つのモデル応用についても紹介する。
論文参考訳（メタデータ） (2024-12-31T18:59:58Z)
UrbanGS: Semantic-Guided Gaussian Splatting for Urban Scene Reconstruction [86.4386398262018]
UrbanGSは2Dセマンティックマップと既存の動的ガウスアプローチを使って静的オブジェクトとシーンを区別する。動的オブジェクトに対して、学習可能な時間埋め込みを用いて時間情報を集約する。提案手法は, 修復の質と効率性において, 最先端の手法より優れている。
論文参考訳（メタデータ） (2024-12-04T16:59:49Z)
Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-07-18T17:59:08Z)
SWinGS: Sliding Windows for Dynamic 3D Gaussian Splatting [7.553079256251747]
我々は動的シーンを再構築するために3次元ガウススプラッティングを拡張した。我々は、競争力のある定量的性能を持つ一般的な動的シーンの高品質なレンダリングを作成する。我々の手法は動的インタラクティブなビューアでリアルタイムで見ることができる。
論文参考訳（メタデータ） (2023-12-20T03:54:03Z)
Periodic Vibration Gaussian: Dynamic Urban Scene Reconstruction and Real-time Rendering [36.111845416439095]
周期振動ガウスモデル(PVG)を提案する。 PVGは、当初静的シーン表現のために設計された効率的な3Dガウススプラッティング技術に基づいている。 PVGは、最良の代替品よりも900倍の速度でレンダリングできる。
論文参考訳（メタデータ） (2023-11-30T13:53:50Z)
Dynamic 3D Gaussians: Tracking by Persistent Dynamic View Synthesis [58.5779956899918]
動的シーンビュー合成と6自由度(6-DOF)追跡のタスクを同時に処理する手法を提案する。我々は、シーンを3Dガウスアンのコレクションとしてモデル化する最近の研究に触発された、分析バイシンセサイザーの枠組みに従う。我々は,1人称視点合成,動的合成シーン合成,4次元映像編集など,我々の表現によって実現された多数のダウンストリームアプリケーションを紹介した。
論文参考訳（メタデータ） (2023-08-18T17:59:21Z)
Efficient 3D Reconstruction, Streaming and Visualization of Static and Dynamic Scene Parts for Multi-client Live-telepresence in Large-scale Environments [6.543101569579952]
本研究では,静的シーンと動的シーンの双方で,部屋規模を超えて大規模環境下での3Dライブテレプレゼンス体験の共有を目指す。我々のシステムは、リアルタイムに近い速度でVRベースのライブテレプレゼンスを実現することができる。
論文参考訳（メタデータ） (2022-11-25T18:59:54Z)
wildNeRF: Complete view synthesis of in-the-wild dynamic scenes captured using sparse monocular data [16.7345472998388]
本稿では,動的非構造シーンの新規視点合成のために,自己教師付きで学習可能な新しいニューラルラジアンスモデルを提案する。我々のエンドツーエンドのトレーニング可能なアルゴリズムは、数秒で非常に複雑で現実世界の静的なシーンを学習し、数分で剛性と非剛性の両方のダイナミックなシーンを学習する。
論文参考訳（メタデータ） (2022-09-20T14:37:56Z)
STVGFormer: Spatio-Temporal Video Grounding with Static-Dynamic Cross-Modal Understanding [68.96574451918458]
静的分岐と動的分岐を用いて視覚言語依存をモデル化するSTVGというフレームワークを提案する。静的分岐と動的分岐は、クロスモーダルトランスとして設計されている。提案手法は39.6%のvIoUを達成し,HC-STVGの第1位を獲得した。
論文参考訳（メタデータ） (2022-07-06T15:48:58Z)
Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文参考訳（メタデータ） (2021-05-13T17:59:50Z)
Non-Rigid Neural Radiance Fields: Reconstruction and Novel View Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文参考訳（メタデータ） (2020-12-22T18:46:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。