論文の概要: Any4D: Unified Feed-Forward Metric 4D Reconstruction
- arxiv url: http://arxiv.org/abs/2512.10935v1
- Date: Thu, 11 Dec 2025 18:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.55885
- Title: Any4D: Unified Feed-Forward Metric 4D Reconstruction
- Title(参考訳): Any4D:統一フィードフォワード4Dコンストラクション
- Authors: Jay Karhade, Nikhil Keetha, Yuchen Zhang, Tanisha Gupta, Akash Sharma, Sebastian Scherer, Deva Ramanan,
- Abstract要約: メトリスケールで高密度なフィードフォワード4D再構成のためのスケーラブルなマルチビュートランスであるAny4Dを提案する。
Any4DはNフレームのピクセル当たりの動きと幾何予測を直接生成する。
精度(2~3倍低いエラー)と計算効率(15倍速い)の両面で、さまざまな設定で優れたパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 39.62006179006032
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Any4D, a scalable multi-view transformer for metric-scale, dense feed-forward 4D reconstruction. Any4D directly generates per-pixel motion and geometry predictions for N frames, in contrast to prior work that typically focuses on either 2-view dense scene flow or sparse 3D point tracking. Moreover, unlike other recent methods for 4D reconstruction from monocular RGB videos, Any4D can process additional modalities and sensors such as RGB-D frames, IMU-based egomotion, and Radar Doppler measurements, when available. One of the key innovations that allows for such a flexible framework is a modular representation of a 4D scene; specifically, per-view 4D predictions are encoded using a variety of egocentric factors (depthmaps and camera intrinsics) represented in local camera coordinates, and allocentric factors (camera extrinsics and scene flow) represented in global world coordinates. We achieve superior performance across diverse setups - both in terms of accuracy (2-3X lower error) and compute efficiency (15X faster), opening avenues for multiple downstream applications.
- Abstract(参考訳): メトリスケールで高密度なフィードフォワード4D再構成のためのスケーラブルなマルチビュートランスであるAny4Dを提案する。
Any4DはNフレームのピクセル当たりの動きと幾何学的予測を直接生成する。
さらに、モノクラーRGBビデオからの他の4D再構成方法とは異なり、Any4Dは利用可能な場合、RGB-Dフレーム、IMUベースのエゴモーション、レーダードプラ測定などの追加のモダリティやセンサーを処理できる。
このような柔軟なフレームワークを実現するための重要な革新の1つは、4Dシーンのモジュラー表現である。具体的には、ビューごとの4D予測は、ローカルカメラ座標で表される様々なエゴセントリックな要素(深度マップとカメラ内在)と、世界座標で表されるアロセントリックな要素(カメラ外在物とシーンフロー)を用いて符号化される。
精度(2~3倍の誤差)と計算効率(15倍の高速化)の両面において,複数のダウンストリームアプリケーションへの道を開くことで,多様なセットアップにおいて優れた性能を実現している。
関連論文リスト
- Tracking-Guided 4D Generation: Foundation-Tracker Motion Priors for 3D Model Animation [21.075786141331974]
スパース入力から動的4Dオブジェクトを生成するフレームワークであるemphTrack4DGenを提案する。
ステージ1では拡散発生器内の高密度な特徴レベル対応を強制する。
ステージ2では,ハイブリッドモーション符号化を用いて動的4D-GSを再構成する。
論文 参考訳(メタデータ) (2025-12-05T21:13:04Z) - Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image [88.71287865590273]
そこでTrajScene-60Kについて紹介する。
拡散型4次元シーン軌道生成装置(4D-STraG)を提案する。
次に、4Dポイントトラック表現から任意のカメラトラジェクトリでビデオをレンダリングする4Dビュー合成モジュール(4D-Vi)を提案する。
論文 参考訳(メタデータ) (2025-12-04T17:59:10Z) - C4D: 4D Made from 3D through Dual Correspondences [77.04731692213663]
時間的対応を利用して既存の3次元再構成を4Dに拡張するフレームワークであるC4Dを紹介する。
C4Dは、短期光学フローと長期点追跡の2種類の対応をキャプチャする。
我々は、追加の移動情報を提供する動的認識ポイントトラッカーを訓練する。
論文 参考訳(メタデータ) (2025-10-16T17:59:06Z) - Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。
実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-27T01:44:46Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.10577967146762]
マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。
我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。
Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
論文 参考訳(メタデータ) (2024-12-09T18:58:03Z) - Controlling Space and Time with Diffusion Models [34.7002868116714]
4次元新規ビュー合成(NVS)のためのケースド拡散モデルである4DiMを提案する。
我々は3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)のデータを混合してトレーニングすることができる。
4DiMは、直感的なメートルスケールカメラポーズ制御を備えた最初のNVS方式である。
論文 参考訳(メタデータ) (2024-07-10T17:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。