論文の概要: 4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time
- arxiv url: http://arxiv.org/abs/2506.18890v1
- Date: Mon, 23 Jun 2025 17:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.117295
- Title: 4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time
- Title(参考訳): 4D-LRM:時空からあらゆる視点への大容量宇宙時間再構成モデル(動画あり)
- Authors: Ziqiao Ma, Xuweiyi Chen, Shoubin Yu, Sai Bi, Kai Zhang, Chen Ziwen, Sihan Xu, Jianing Yang, Zexiang Xu, Kalyan Sunkavalli, Mohit Bansal, Joyce Chai, Hao Tan,
- Abstract要約: 4D-LRMは、制約のないビューとタイムスタンプから入力を受け取り、任意のビュータイムの組み合わせをレンダリングする最初の大規模4D再構成モデルである。
統合された時空表現を学習し、時間を通してポーズされた画像トークンからピクセルごとの4Dガウスプリミティブを直接予測する。
1つのA100 GPU上で1.5秒未満で、24フレームのシーケンスを1フォワードパスで再構築する。
- 参考スコア(独自算出の注目度): 74.07107064085409
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Can we scale 4D pretraining to learn general space-time representations that reconstruct an object from a few views at some times to any view at any time? We provide an affirmative answer with 4D-LRM, the first large-scale 4D reconstruction model that takes input from unconstrained views and timestamps and renders arbitrary novel view-time combinations. Unlike prior 4D approaches, e.g., optimization-based, geometry-based, or generative, that struggle with efficiency, generalization, or faithfulness, 4D-LRM learns a unified space-time representation and directly predicts per-pixel 4D Gaussian primitives from posed image tokens across time, enabling fast, high-quality rendering at, in principle, infinite frame rate. Our results demonstrate that scaling spatiotemporal pretraining enables accurate and efficient 4D reconstruction. We show that 4D-LRM generalizes to novel objects, interpolates across time, and handles diverse camera setups. It reconstructs 24-frame sequences in one forward pass with less than 1.5 seconds on a single A100 GPU.
- Abstract(参考訳): 4Dプリトレーニングは、ある時点のいくつかのビューから、ある時点の任意のビューにオブジェクトを再構成する一般的な時空表現を学ぶためにスケールできますか?
制約のないビューやタイムスタンプから入力を受け取り、任意の新しいビュータイムの組み合わせを描画する最初の大規模4D再構成モデルである4D-LRMについて、肯定的な回答を提供する。
4D-LRMは、効率、一般化、忠実さに苦しむ従来の4Dアプローチとは異なり、一貫した時空間表現を学習し、時間をかけて提案された画像トークンから画素ごとの4Dガウスプリミティブを直接予測し、原理的には無限フレームレートで高速で高品質なレンダリングを可能にする。
以上の結果より, 時空間事前トレーニングにより, 正確な4次元再構成が可能であることが示唆された。
4D-LRMは、新しいオブジェクトに一般化し、時間にわたって補間し、多様なカメラ設定を処理する。
1つのA100 GPU上で1.5秒未満で、24フレームのシーケンスを1フォワードパスで再構築する。
関連論文リスト
- 4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation [66.20991603309054]
本稿では,映像フレームの4次元時間格子と3次元ガウス粒子の時間ステップ毎にフィードフォワードアーキテクチャを用いて計算可能な最初のフレームワークを提案する。
まず,2ストリーム設計において,空間的および時間的注意を連続的に,あるいは並列に行う4次元ビデオ拡散アーキテクチャを解析する。
第2部では、ガウスヘッド、カメラトークン置換アルゴリズム、追加の動的レイヤとトレーニングを導入し、既存の3D再構成アルゴリズムを拡張した。
論文 参考訳(メタデータ) (2025-06-18T23:44:59Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes [65.76371201992654]
そこで本研究では,新しい4D再構成ベンチマークであるWideRange4Dを提案する。
このベンチマークには、空間変動が大きいリッチな4Dシーンデータが含まれており、より包括的な4D生成手法の生成能力を評価できる。
また,様々な複雑な4Dシーン再構成タスクに対して,安定かつ高品質な4D結果を生成する新しい4D再構成手法であるProgress4Dを導入する。
論文 参考訳(メタデータ) (2025-03-17T17:58:18Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [116.2042238179433]
本稿では,動的シーンを非拘束な4次元ボリューム学習問題とみなす。
本研究では,4次元ガウス原始体の集合を対象とした動的シーンを明示的な幾何学的特徴と外観的特徴で表現する。
このアプローチは、下層のフォトリアリスティック時間体積を適合させることで、空間と時間の関連情報をキャプチャすることができる。
特に、我々の4DGSモデルは、複雑なダイナミックシーンのための、高解像度で斬新なビューのリアルタイムレンダリングをサポートする最初のソリューションです。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - Controlling Space and Time with Diffusion Models [34.7002868116714]
4次元新規ビュー合成(NVS)のためのケースド拡散モデルである4DiMを提案する。
我々は3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)のデータを混合してトレーニングすることができる。
4DiMは、直感的なメートルスケールカメラポーズ制御を備えた最初のNVS方式である。
論文 参考訳(メタデータ) (2024-07-10T17:23:33Z) - Tensor4D : Efficient Neural 4D Decomposition for High-fidelity Dynamic
Reconstruction and Rendering [31.928844354349117]
動的シーンに対する効率的な4次元テンソル分解法を提案する。
本手法は,スパースビューカメラや単眼カメラから高品質な動的再構成とレンダリングを実現することができることを示す。
コードとデータセットはatliuyebin.com/tensor4d-tensor4d.htmlでリリースされる。
論文 参考訳(メタデータ) (2022-11-21T16:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。