Fugu-MT 論文翻訳(概要): 4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time

論文の概要: 4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time

arxiv url: http://arxiv.org/abs/2506.18890v1
Date: Mon, 23 Jun 2025 17:57:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-24 19:06:37.117295
Title: 4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time
Title（参考訳）: 4D-LRM:時空からあらゆる視点への大容量宇宙時間再構成モデル(動画あり)
Authors: Ziqiao Ma, Xuweiyi Chen, Shoubin Yu, Sai Bi, Kai Zhang, Chen Ziwen, Sihan Xu, Jianing Yang, Zexiang Xu, Kalyan Sunkavalli, Mohit Bansal, Joyce Chai, Hao Tan,
Abstract要約: 4D-LRMは、制約のないビューとタイムスタンプから入力を受け取り、任意のビュータイムの組み合わせをレンダリングする最初の大規模4D再構成モデルである。統合された時空表現を学習し、時間を通してポーズされた画像トークンからピクセルごとの4Dガウスプリミティブを直接予測する。 1つのA100 GPU上で1.5秒未満で、24フレームのシーケンスを1フォワードパスで再構築する。
参考スコア（独自算出の注目度）: 74.07107064085409
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Can we scale 4D pretraining to learn general space-time representations that reconstruct an object from a few views at some times to any view at any time? We provide an affirmative answer with 4D-LRM, the first large-scale 4D reconstruction model that takes input from unconstrained views and timestamps and renders arbitrary novel view-time combinations. Unlike prior 4D approaches, e.g., optimization-based, geometry-based, or generative, that struggle with efficiency, generalization, or faithfulness, 4D-LRM learns a unified space-time representation and directly predicts per-pixel 4D Gaussian primitives from posed image tokens across time, enabling fast, high-quality rendering at, in principle, infinite frame rate. Our results demonstrate that scaling spatiotemporal pretraining enables accurate and efficient 4D reconstruction. We show that 4D-LRM generalizes to novel objects, interpolates across time, and handles diverse camera setups. It reconstructs 24-frame sequences in one forward pass with less than 1.5 seconds on a single A100 GPU.
Abstract（参考訳）: 4Dプリトレーニングは、ある時点のいくつかのビューから、ある時点の任意のビューにオブジェクトを再構成する一般的な時空表現を学ぶためにスケールできますか? 制約のないビューやタイムスタンプから入力を受け取り、任意の新しいビュータイムの組み合わせを描画する最初の大規模4D再構成モデルである4D-LRMについて、肯定的な回答を提供する。 4D-LRMは、効率、一般化、忠実さに苦しむ従来の4Dアプローチとは異なり、一貫した時空間表現を学習し、時間をかけて提案された画像トークンから画素ごとの4Dガウスプリミティブを直接予測し、原理的には無限フレームレートで高速で高品質なレンダリングを可能にする。以上の結果より, 時空間事前トレーニングにより, 正確な4次元再構成が可能であることが示唆された。 4D-LRMは、新しいオブジェクトに一般化し、時間にわたって補間し、多様なカメラ設定を処理する。 1つのA100 GPU上で1.5秒未満で、24フレームのシーケンスを1フォワードパスで再構築する。

関連論文リスト

Streaming 4D Visual Geometry Transformer [63.99937807085461]
入力シーケンスをオンラインで処理するストリーミング4Dビジュアルジオメトリ変換器を提案する。時間的因果的注意を用いて、履歴キーと値を暗黙記憶としてキャッシュし、より効率的な長期4D再構成を可能にする。各種4次元幾何知覚ベンチマーク実験により,オンラインシナリオにおける推論速度の向上が示された。
論文参考訳（メタデータ） (2025-07-15T17:59:57Z)
4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation [66.20991603309054]
本稿では,映像フレームの4次元時間格子と3次元ガウス粒子の時間ステップ毎にフィードフォワードアーキテクチャを用いて計算可能な最初のフレームワークを提案する。まず,2ストリーム設計において,空間的および時間的注意を連続的に,あるいは並列に行う4次元ビデオ拡散アーキテクチャを解析する。第2部では、ガウスヘッド、カメラトークン置換アルゴリズム、追加の動的レイヤとトレーニングを導入し、既存の3D再構成アルゴリズムを拡張した。
論文参考訳（メタデータ） (2025-06-18T23:44:59Z)
Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文参考訳（メタデータ） (2025-03-26T17:59:44Z)
WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes [65.76371201992654]
そこで本研究では,新しい4D再構成ベンチマークであるWideRange4Dを提案する。このベンチマークには、空間変動が大きいリッチな4Dシーンデータが含まれており、より包括的な4D生成手法の生成能力を評価できる。また,様々な複雑な4Dシーン再構成タスクに対して,安定かつ高品質な4D結果を生成する新しい4D再構成手法であるProgress4Dを導入する。
論文参考訳（メタデータ） (2025-03-17T17:58:18Z)
4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [116.2042238179433]
本稿では,動的シーンを非拘束な4次元ボリューム学習問題とみなす。本研究では,4次元ガウス原始体の集合を対象とした動的シーンを明示的な幾何学的特徴と外観的特徴で表現する。このアプローチは、下層のフォトリアリスティック時間体積を適合させることで、空間と時間の関連情報をキャプチャすることができる。特に、我々の4DGSモデルは、複雑なダイナミックシーンのための、高解像度で斬新なビューのリアルタイムレンダリングをサポートする最初のソリューションです。
論文参考訳（メタデータ） (2024-12-30T05:30:26Z)
Controlling Space and Time with Diffusion Models [34.7002868116714]
4次元新規ビュー合成(NVS)のためのケースド拡散モデルである4DiMを提案する。我々は3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)のデータを混合してトレーニングすることができる。 4DiMは、直感的なメートルスケールカメラポーズ制御を備えた最初のNVS方式である。
論文参考訳（メタデータ） (2024-07-10T17:23:33Z)
Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文参考訳（メタデータ） (2024-01-16T18:58:36Z)
Tensor4D : Efficient Neural 4D Decomposition for High-fidelity Dynamic Reconstruction and Rendering [31.928844354349117]
動的シーンに対する効率的な4次元テンソル分解法を提案する。本手法は,スパースビューカメラや単眼カメラから高品質な動的再構成とレンダリングを実現することができることを示す。コードとデータセットはatliuyebin.com/tensor4d-tensor4d.htmlでリリースされる。
論文参考訳（メタデータ） (2022-11-21T16:04:45Z)
NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文参考訳（メタデータ） (2022-10-28T07:11:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。