論文の概要: Efficiently Reconstructing Dynamic Scenes One D4RT at a Time
- arxiv url: http://arxiv.org/abs/2512.08924v2
- Date: Wed, 10 Dec 2025 14:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.229141
- Title: Efficiently Reconstructing Dynamic Scenes One D4RT at a Time
- Title(参考訳): 動的シーン1D4RTを1時間で効率的に再構築する
- Authors: Chuhan Zhang, Guillaume Le Moing, Skanda Koppula, Ignacio Rocco, Liliane Momeni, Junyu Xie, Shuyang Sun, Rahul Sukthankar, Joëlle K. Barral, Raia Hadsell, Zoubin Ghahramani, Andrew Zisserman, Junlin Zhang, Mehdi S. M. Sajjadi,
- Abstract要約: 本稿では、このタスクを効率的に解くために設計された、シンプルながら強力なフィードフォワードモデルであるD4RTを紹介する。
我々のデコードインタフェースにより、モデルは独立して、空間と時間の任意の点の3D位置を柔軟にプローブすることができる。
提案手法は,従来の手法よりも広い範囲の4次元再構成作業に優れることを示す。
- 参考スコア(独自算出の注目度): 54.67332582569525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and reconstructing the complex geometry and motion of dynamic scenes from video remains a formidable challenge in computer vision. This paper introduces D4RT, a simple yet powerful feedforward model designed to efficiently solve this task. D4RT utilizes a unified transformer architecture to jointly infer depth, spatio-temporal correspondence, and full camera parameters from a single video. Its core innovation is a novel querying mechanism that sidesteps the heavy computation of dense, per-frame decoding and the complexity of managing multiple, task-specific decoders. Our decoding interface allows the model to independently and flexibly probe the 3D position of any point in space and time. The result is a lightweight and highly scalable method that enables remarkably efficient training and inference. We demonstrate that our approach sets a new state of the art, outperforming previous methods across a wide spectrum of 4D reconstruction tasks. We refer to the project webpage for animated results: https://d4rt-paper.github.io/.
- Abstract(参考訳): ビデオからダイナミックシーンの複雑な幾何学と動きを理解し、再構築することは、コンピュータビジョンにおける大きな課題である。
本稿では、このタスクを効率的に解くために設計された、シンプルながら強力なフィードフォワードモデルであるD4RTを紹介する。
D4RTは、統合トランスフォーマーアーキテクチャを使用して、単一のビデオから深度、時空間対応、フルカメラパラメータを共同で推論する。
その中核的なイノベーションは、高密度なフレーム単位のデコーディングの重い計算と、複数のタスク固有のデコーダを管理する複雑さを横取りする、新しいクエリメカニズムである。
我々のデコードインタフェースにより、モデルは独立して、空間と時間の任意の点の3D位置を柔軟にプローブすることができる。
その結果、非常に効率的なトレーニングと推論を可能にする、軽量でスケーラブルな方法が実現した。
提案手法は,4次元再構成タスクの幅広い範囲において,従来の手法よりも優れた新しい最先端の手法を設定できることを実証する。
アニメーションの結果については、プロジェクトのWebページを参照しよう。
関連論文リスト
- Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - Easi3R: Estimating Disentangled Motion from DUSt3R Without Training [69.51086319339662]
Easi3Rは,4次元再構成のための簡易かつ効率的なトレーニングフリー手法である。
提案手法は,事前学習やネットワークファインチューニングの必要性を排除し,推論中の注意適応を適用した。
実世界のダイナミックビデオの実験では、従来の最先端手法よりも軽量な注意適応が著しく優れていたことが示されている。
論文 参考訳(メタデータ) (2025-03-31T17:59:58Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Tensor4D : Efficient Neural 4D Decomposition for High-fidelity Dynamic
Reconstruction and Rendering [31.928844354349117]
動的シーンに対する効率的な4次元テンソル分解法を提案する。
本手法は,スパースビューカメラや単眼カメラから高品質な動的再構成とレンダリングを実現することができることを示す。
コードとデータセットはatliuyebin.com/tensor4d-tensor4d.htmlでリリースされる。
論文 参考訳(メタデータ) (2022-11-21T16:04:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。