論文の概要: 4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time
- arxiv url: http://arxiv.org/abs/2506.18890v1
- Date: Mon, 23 Jun 2025 17:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.117295
- Title: 4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time
- Title(参考訳): 4D-LRM:時空からあらゆる視点への大容量宇宙時間再構成モデル(動画あり)
- Authors: Ziqiao Ma, Xuweiyi Chen, Shoubin Yu, Sai Bi, Kai Zhang, Chen Ziwen, Sihan Xu, Jianing Yang, Zexiang Xu, Kalyan Sunkavalli, Mohit Bansal, Joyce Chai, Hao Tan,
- Abstract要約: 4D-LRMは、制約のないビューとタイムスタンプから入力を受け取り、任意のビュータイムの組み合わせをレンダリングする最初の大規模4D再構成モデルである。
統合された時空表現を学習し、時間を通してポーズされた画像トークンからピクセルごとの4Dガウスプリミティブを直接予測する。
1つのA100 GPU上で1.5秒未満で、24フレームのシーケンスを1フォワードパスで再構築する。
- 参考スコア(独自算出の注目度): 74.07107064085409
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Can we scale 4D pretraining to learn general space-time representations that reconstruct an object from a few views at some times to any view at any time? We provide an affirmative answer with 4D-LRM, the first large-scale 4D reconstruction model that takes input from unconstrained views and timestamps and renders arbitrary novel view-time combinations. Unlike prior 4D approaches, e.g., optimization-based, geometry-based, or generative, that struggle with efficiency, generalization, or faithfulness, 4D-LRM learns a unified space-time representation and directly predicts per-pixel 4D Gaussian primitives from posed image tokens across time, enabling fast, high-quality rendering at, in principle, infinite frame rate. Our results demonstrate that scaling spatiotemporal pretraining enables accurate and efficient 4D reconstruction. We show that 4D-LRM generalizes to novel objects, interpolates across time, and handles diverse camera setups. It reconstructs 24-frame sequences in one forward pass with less than 1.5 seconds on a single A100 GPU.
- Abstract(参考訳): 4Dプリトレーニングは、ある時点のいくつかのビューから、ある時点の任意のビューにオブジェクトを再構成する一般的な時空表現を学ぶためにスケールできますか?
制約のないビューやタイムスタンプから入力を受け取り、任意の新しいビュータイムの組み合わせを描画する最初の大規模4D再構成モデルである4D-LRMについて、肯定的な回答を提供する。
4D-LRMは、効率、一般化、忠実さに苦しむ従来の4Dアプローチとは異なり、一貫した時空間表現を学習し、時間をかけて提案された画像トークンから画素ごとの4Dガウスプリミティブを直接予測し、原理的には無限フレームレートで高速で高品質なレンダリングを可能にする。
以上の結果より, 時空間事前トレーニングにより, 正確な4次元再構成が可能であることが示唆された。
4D-LRMは、新しいオブジェクトに一般化し、時間にわたって補間し、多様なカメラ設定を処理する。
1つのA100 GPU上で1.5秒未満で、24フレームのシーケンスを1フォワードパスで再構築する。
関連論文リスト
- 4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere [77.83037497484366]
単眼ビデオからの4次元再構成のための統合フィードフォワードフレームワークである4RCを提案する。
4RCは、密集したシーン形状と動きのダイナミクスを共同でキャプチャする総体的な4D表現を学習する。
論文 参考訳(メタデータ) (2026-02-10T18:57:04Z) - Any4D: Unified Feed-Forward Metric 4D Reconstruction [39.62006179006032]
メトリスケールで高密度なフィードフォワード4D再構成のためのスケーラブルなマルチビュートランスであるAny4Dを提案する。
Any4DはNフレームのピクセル当たりの動きと幾何予測を直接生成する。
精度(2~3倍低いエラー)と計算効率(15倍速い)の両面で、さまざまな設定で優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-12-11T18:57:39Z) - Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image [88.71287865590273]
そこでTrajScene-60Kについて紹介する。
拡散型4次元シーン軌道生成装置(4D-STraG)を提案する。
次に、4Dポイントトラック表現から任意のカメラトラジェクトリでビデオをレンダリングする4Dビュー合成モジュール(4D-Vi)を提案する。
論文 参考訳(メタデータ) (2025-12-04T17:59:10Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - Dream4D: Lifting Camera-Controlled I2V towards Spatiotemporally Consistent 4D Generation [3.1852855132066673]
現在のアプローチは、複雑なシーンダイナミクスを処理しながら、ビューの一貫性を維持するのに苦労することが多い。
このフレームワークは、リッチな時間的先行ビデオ拡散モデルと、再構成モデルの幾何学的認識の両方を活用する最初のものである。
これは4D生成を著しく促進し、既存の方法よりも高い品質(mPSNR、mSSIMなど)を示す。
論文 参考訳(メタデータ) (2025-08-11T08:55:47Z) - Streaming 4D Visual Geometry Transformer [63.99937807085461]
入力シーケンスをオンラインで処理するストリーミング4Dビジュアルジオメトリ変換器を提案する。
時間的因果的注意を用いて、履歴キーと値を暗黙記憶としてキャッシュし、より効率的な長期4D再構成を可能にする。
各種4次元幾何知覚ベンチマーク実験により,オンラインシナリオにおける推論速度の向上が示された。
論文 参考訳(メタデータ) (2025-07-15T17:59:57Z) - 4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation [66.20991603309054]
本稿では,映像フレームの4次元時間格子と3次元ガウス粒子の時間ステップ毎にフィードフォワードアーキテクチャを用いて計算可能な最初のフレームワークを提案する。
まず,2ストリーム設計において,空間的および時間的注意を連続的に,あるいは並列に行う4次元ビデオ拡散アーキテクチャを解析する。
第2部では、ガウスヘッド、カメラトークン置換アルゴリズム、追加の動的レイヤとトレーニングを導入し、既存の3D再構成アルゴリズムを拡張した。
論文 参考訳(メタデータ) (2025-06-18T23:44:59Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes [65.76371201992654]
そこで本研究では,新しい4D再構成ベンチマークであるWideRange4Dを提案する。
このベンチマークには、空間変動が大きいリッチな4Dシーンデータが含まれており、より包括的な4D生成手法の生成能力を評価できる。
また,様々な複雑な4Dシーン再構成タスクに対して,安定かつ高品質な4D結果を生成する新しい4D再構成手法であるProgress4Dを導入する。
論文 参考訳(メタデータ) (2025-03-17T17:58:18Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [116.2042238179433]
本稿では,動的シーンを非拘束な4次元ボリューム学習問題とみなす。
本研究では,4次元ガウス原始体の集合を対象とした動的シーンを明示的な幾何学的特徴と外観的特徴で表現する。
このアプローチは、下層のフォトリアリスティック時間体積を適合させることで、空間と時間の関連情報をキャプチャすることができる。
特に、我々の4DGSモデルは、複雑なダイナミックシーンのための、高解像度で斬新なビューのリアルタイムレンダリングをサポートする最初のソリューションです。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - Controlling Space and Time with Diffusion Models [34.7002868116714]
4次元新規ビュー合成(NVS)のためのケースド拡散モデルである4DiMを提案する。
我々は3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)のデータを混合してトレーニングすることができる。
4DiMは、直感的なメートルスケールカメラポーズ制御を備えた最初のNVS方式である。
論文 参考訳(メタデータ) (2024-07-10T17:23:33Z) - Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。
異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。
合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - Tensor4D : Efficient Neural 4D Decomposition for High-fidelity Dynamic
Reconstruction and Rendering [31.928844354349117]
動的シーンに対する効率的な4次元テンソル分解法を提案する。
本手法は,スパースビューカメラや単眼カメラから高品質な動的再構成とレンダリングを実現することができることを示す。
コードとデータセットはatliuyebin.com/tensor4d-tensor4d.htmlでリリースされる。
論文 参考訳(メタデータ) (2022-11-21T16:04:45Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。