論文の概要: 4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere
- arxiv url: http://arxiv.org/abs/2602.10094v1
- Date: Tue, 10 Feb 2026 18:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.757461
- Title: 4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere
- Title(参考訳): 4RC: 条件付きクエリによる任意の場所での4D再構成
- Authors: Yihang Luo, Shangchen Zhou, Yushi Lan, Xingang Pan, Chen Change Loy,
- Abstract要約: 単眼ビデオからの4次元再構成のための統合フィードフォワードフレームワークである4RCを提案する。
4RCは、密集したシーン形状と動きのダイナミクスを共同でキャプチャする総体的な4D表現を学習する。
- 参考スコア(独自算出の注目度): 77.83037497484366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present 4RC, a unified feed-forward framework for 4D reconstruction from monocular videos. Unlike existing approaches that typically decouple motion from geometry or produce limited 4D attributes such as sparse trajectories or two-view scene flow, 4RC learns a holistic 4D representation that jointly captures dense scene geometry and motion dynamics. At its core, 4RC introduces a novel encode-once, query-anywhere and anytime paradigm: a transformer backbone encodes the entire video into a compact spatio-temporal latent space, from which a conditional decoder can efficiently query 3D geometry and motion for any query frame at any target timestamp. To facilitate learning, we represent per-view 4D attributes in a minimally factorized form by decomposing them into base geometry and time-dependent relative motion. Extensive experiments demonstrate that 4RC outperforms prior and concurrent methods across a wide range of 4D reconstruction tasks.
- Abstract(参考訳): 単眼ビデオからの4次元再構成のための統合フィードフォワードフレームワークである4RCを提案する。
通常、幾何学から運動を分離したり、スパース軌跡や2次元のシーンフローのような限られた4D属性を生成する既存のアプローチとは異なり、4RCは密集したシーンの幾何学と動きのダイナミクスを共同でキャプチャする包括的4D表現を学習する。
トランスフォーマーバックボーンは、ビデオ全体をコンパクトな時空間にエンコードし、コンディショナルデコーダは、任意のターゲットタイムスタンプで、任意のクエリフレームの3D形状と動きを効率的にクエリすることができる。
学習を容易にするために,ビューごとの4D属性を基本形状と時間依存性の相対運動に分解することで,最小限の分解形式で表現する。
広範囲な4次元再構成作業において, 4RC が先行的, 同時的手法より優れることを示した。
関連論文リスト
- Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis [53.48281548500864]
Motion 3-to-4は、単一のモノクロビデオから高品質な4Dダイナミックオブジェクトを合成するためのフィードフォワードフレームワークである。
我々のモデルは、コンパクトな動き潜在表現を学習し、フレーム単位の軌道を予測して、時間的コヒーレントな幾何である完全なロバスト性を取り戻す。
論文 参考訳(メタデータ) (2026-01-20T18:59:48Z) - Any4D: Unified Feed-Forward Metric 4D Reconstruction [39.62006179006032]
メトリスケールで高密度なフィードフォワード4D再構成のためのスケーラブルなマルチビュートランスであるAny4Dを提案する。
Any4DはNフレームのピクセル当たりの動きと幾何予測を直接生成する。
精度(2~3倍低いエラー)と計算効率(15倍速い)の両面で、さまざまな設定で優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-12-11T18:57:39Z) - Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image [88.71287865590273]
そこでTrajScene-60Kについて紹介する。
拡散型4次元シーン軌道生成装置(4D-STraG)を提案する。
次に、4Dポイントトラック表現から任意のカメラトラジェクトリでビデオをレンダリングする4Dビュー合成モジュール(4D-Vi)を提案する。
論文 参考訳(メタデータ) (2025-12-04T17:59:10Z) - 4D-LRM: Large Space-Time Reconstruction Model From and To Any View at Any Time [74.07107064085409]
4D-LRMは、制約のないビューとタイムスタンプから入力を受け取り、任意のビュータイムの組み合わせをレンダリングする最初の大規模4D再構成モデルである。
統合された時空表現を学習し、時間を通してポーズされた画像トークンからピクセルごとの4Dガウスプリミティブを直接予測する。
1つのA100 GPU上で1.5秒未満で、24フレームのシーケンスを1フォワードパスで再構築する。
論文 参考訳(メタデータ) (2025-06-23T17:57:47Z) - Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。
実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-27T01:44:46Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。