論文の概要: Instant4D: 4D Gaussian Splatting in Minutes
- arxiv url: http://arxiv.org/abs/2510.01119v1
- Date: Wed, 01 Oct 2025 17:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.684227
- Title: Instant4D: 4D Gaussian Splatting in Minutes
- Title(参考訳): Instant4D:1分で4Dガウススプラッティング
- Authors: Zhanpeng Luo, Haoxi Ran, Li Lu,
- Abstract要約: Instant4Dは、キャリブレーションされたカメラや奥行きセンサーを使わずに、数分でカジュアルな映像シーケンスを処理できる単分子再構成システムである。
我々の設計は、幾何学的整合性を保ちながら冗長性を著しく低減し、モデルのサイズを元のフットプリントの10%以下に削減する。
提案手法は,Dycheckデータセット上で10分以内に,あるいは一般的な200フレームのビデオに対して,単一のビデオを再構成する。
- 参考スコア(独自算出の注目度): 8.897770973611427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic view synthesis has seen significant advances, yet reconstructing scenes from uncalibrated, casual video remains challenging due to slow optimization and complex parameter estimation. In this work, we present Instant4D, a monocular reconstruction system that leverages native 4D representation to efficiently process casual video sequences within minutes, without calibrated cameras or depth sensors. Our method begins with geometric recovery through deep visual SLAM, followed by grid pruning to optimize scene representation. Our design significantly reduces redundancy while maintaining geometric integrity, cutting model size to under 10% of its original footprint. To handle temporal dynamics efficiently, we introduce a streamlined 4D Gaussian representation, achieving a 30x speed-up and reducing training time to within two minutes, while maintaining competitive performance across several benchmarks. Our method reconstruct a single video within 10 minutes on the Dycheck dataset or for a typical 200-frame video. We further apply our model to in-the-wild videos, showcasing its generalizability. Our project website is published at https://instant4d.github.io/.
- Abstract(参考訳): 動的ビュー合成は大きな進歩を遂げてきたが、非校正でカジュアルなビデオからシーンを再構成することは、遅い最適化と複雑なパラメータ推定のために難しいままである。
Instant4Dは、ネイティブな4D表現を利用して、キャリブレーションされたカメラや奥行きセンサーを使わずに、数分でカジュアルな映像シーケンスを効率的に処理するモノクラーリコンストラクションシステムである。
提案手法は,画像の深いSLAMによる幾何的復元から始まり,続いてグリッドプルーニングによりシーン表現の最適化を行う。
我々の設計は、幾何学的整合性を保ちながら冗長性を著しく低減し、モデルのサイズを元のフットプリントの10%以下に削減する。
時間的ダイナミクスを効率的に処理するために,30倍のスピードアップを実現し,トレーニング時間を2分以内に短縮し,複数のベンチマーク間での競合性能を維持しながら,合理化された4Dガウス表現を導入する。
提案手法は,Dycheckデータセット上で10分以内に,あるいは一般的な200フレームのビデオに対して,単一のビデオを再構成する。
我々は、その一般化可能性を示しながら、我々のモデルを現在地にあるビデオに適用する。
プロジェクトのWebサイトはhttps://instant4d.github.io/で公開されている。
関連論文リスト
- 4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time [74.07107064085409]
4D-LRMは、制約のないビューとタイムスタンプから入力を受け取り、任意のビュータイムの組み合わせをレンダリングする最初の大規模4D再構成モデルである。
統合された時空表現を学習し、時間を通してポーズされた画像トークンからピクセルごとの4Dガウスプリミティブを直接予測する。
1つのA100 GPU上で1.5秒未満で、24フレームのシーケンスを1フォワードパスで再構築する。
論文 参考訳(メタデータ) (2025-06-23T17:57:47Z) - 4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos [29.061337554486897]
動的シーン再構成のための4次元ガウス型トランスフォーマーモデルである4DGTを提案する。
4D Gaussian を誘導バイアスとして用い、4DGT は静的および動的成分を統一する。
我々のモデルでは64個のフレームを回転風で連続的に処理し、現場で一貫した4Dガウスを予測している。
論文 参考訳(メタデータ) (2025-06-09T17:59:59Z) - Representing Long Volumetric Video with Temporal Gaussian Hierarchy [80.51373034419379]
本稿では,多視点RGBビデオから長いボリューム映像を再構成することの課題を解決することを目的とする。
本稿では,テンポラルガウス階層(Temporal Gaussian Hierarchy)と呼ばれる新しい4次元表現を提案する。
この研究は、最先端のレンダリング品質を維持しながら、ボリュームビデオデータの分を効率的に処理できる最初のアプローチである。
論文 参考訳(メタデータ) (2024-12-12T18:59:34Z) - Self-Calibrating 4D Novel View Synthesis from Monocular Videos Using Gaussian Splatting [14.759265492381509]
本稿では,カメラパラメータの自己校正による高忠実度 4D GS シーン表現の学習手法を提案する。
3次元構造を頑健に表現する2次元点特徴の抽出を含む。
その結果,4次元新規ビュー合成における最先端手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-03T06:52:35Z) - Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。
異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。
合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - Splatter Image: Ultra-Fast Single-View 3D Reconstruction [67.96212093828179]
Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。
テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習する。
いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果を得る。
論文 参考訳(メタデータ) (2023-12-20T16:14:58Z) - 4D Gaussian Splatting for Real-Time Dynamic Scene Rendering [103.32717396287751]
本研究では,動的シーンの全体像として4D-GS(Gaussian Splatting)を提案する。
HexPlaneにインスパイアされたニューラルボクセル符号化アルゴリズムは、4Dニューラルボクセルの機能を効率的に構築するために提案されている。
我々の4D-GS法は、高解像度の82 FPSで、3090 GPUで800$times$800の解像度でリアルタイムレンダリングを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:21:41Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。