論文の概要: St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World
- arxiv url: http://arxiv.org/abs/2504.13152v1
- Date: Thu, 17 Apr 2025 17:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 17:02:42.958574
- Title: St4RTrack: Simultaneous 4D Reconstruction and Tracking in the World
- Title(参考訳): St4RTrack: 世界の4Dレコンストラクションと追跡を同時に行う
- Authors: Haiwen Feng, Junyi Zhang, Qianqian Wang, Yufei Ye, Pengcheng Yu, Michael J. Black, Trevor Darrell, Angjoo Kanazawa,
- Abstract要約: St4RTrackは、RGB入力から世界座標フレーム内の動的ビデオコンテンツを同時に再構成し、追跡するフレームワークである。
静的および動的シーン幾何学の両方をキャプチャして、同じ世界において、同時に両方のポイントマップを予測する。
統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
- 参考スコア(独自算出の注目度): 106.91539872943864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic 3D reconstruction and point tracking in videos are typically treated as separate tasks, despite their deep connection. We propose St4RTrack, a feed-forward framework that simultaneously reconstructs and tracks dynamic video content in a world coordinate frame from RGB inputs. This is achieved by predicting two appropriately defined pointmaps for a pair of frames captured at different moments. Specifically, we predict both pointmaps at the same moment, in the same world, capturing both static and dynamic scene geometry while maintaining 3D correspondences. Chaining these predictions through the video sequence with respect to a reference frame naturally computes long-range correspondences, effectively combining 3D reconstruction with 3D tracking. Unlike prior methods that rely heavily on 4D ground truth supervision, we employ a novel adaptation scheme based on a reprojection loss. We establish a new extensive benchmark for world-frame reconstruction and tracking, demonstrating the effectiveness and efficiency of our unified, data-driven framework. Our code, model, and benchmark will be released.
- Abstract(参考訳): ビデオのダイナミックな3D再構成とポイントトラッキングは、深いつながりにもかかわらず、通常は別のタスクとして扱われる。
我々は、RGB入力から世界座標フレーム内の動的映像コンテンツを同時に再構成し、追跡するフィードフォワードフレームワークであるSt4RTrackを提案する。
これは、異なる瞬間にキャプチャされた一対のフレームに対して、適切に定義された2つのポイントマップを予測することで達成される。
具体的には,3次元対応を保ちながら静的かつダイナミックなシーン形状を捉えながら,同じ世界の両点マップを同時に予測する。
参照フレームに対するこれらの予測をビデオシーケンスでチェインすることで、自然に長距離対応を計算し、3D再構成と3D追跡を効果的に組み合わせる。
従来の4次元地上真実管理に大きく依存する手法とは異なり、再投射損失に基づく新しい適応方式を採用する。
統合されたデータ駆動フレームワークの有効性と効率を実証し、世界フレームの再構築と追跡のための新しい広範囲なベンチマークを構築します。
私たちのコード、モデル、ベンチマークはリリースされます。
関連論文リスト
- D^2USt3R: Enhancing 3D Reconstruction with 4D Pointmaps for Dynamic Scenes [40.371542172080105]
そこで我々は,D2USt3Rを提案する。D2USt3Rは,静的および動的3次元シーンの形状をフィードフォワード方式でシミュレートする。
本手法は,空間的側面と時間的側面の両方を明示的に取り入れることで,提案した4次元ポイントマップへのオブジェクト時間密度対応をカプセル化し,下流タスクを増強する。
論文 参考訳(メタデータ) (2025-04-08T17:59:50Z) - POMATO: Marrying Pointmap Matching with Temporal Motion for Dynamic 3D Reconstruction [53.19968902152528]
POMATOは時間運動と一致する点マップを結合して動的3次元再構成を実現するための統合フレームワークである。
具体的には,RGB画素を動的および静的の両方の領域から3次元ポイントマップにマッピングすることで,明示的なマッチング関係を学習する。
本稿では,複数の下流タスクにまたがる顕著な性能を示すことによって,提案したポイントマップマッチングと時間融合のパラダイムの有効性を示す。
論文 参考訳(メタデータ) (2025-04-08T05:33:13Z) - Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction [56.32589034046427]
本研究では,ダイナミックポイントマップ(DPM)を導入し,モーションセグメンテーション,シーンフロー推定,3次元物体追跡,2次元対応などの4次元タスクをサポートする標準点マップを拡張した。
我々は,合成データと実データを組み合わせたDPM予測器を訓練し,映像深度予測,ダイナミックポイントクラウド再構成,3次元シーンフロー,オブジェクトポーズ追跡,最先端性能の達成など,様々なベンチマークで評価する。
論文 参考訳(メタデータ) (2025-03-20T16:41:50Z) - SIRE: SE(3) Intrinsic Rigidity Embeddings [16.630400019100943]
本稿では,オブジェクトの動作発見とシーンの動的再構築のための自己教師型手法であるSIREを紹介する。
本手法では,画像エンコーダを用いてシーンの剛性と形状を推定し,簡単な4次元再構成損失によって教師される。
以上の結果から,SIREは映像データから強い幾何や動きの剛性を,最小限の監督で学習できることが示唆された。
論文 参考訳(メタデータ) (2025-03-10T18:00:30Z) - Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.10577967146762]
マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。
我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。
Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
論文 参考訳(メタデータ) (2024-12-09T18:58:03Z) - TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - Fast Encoder-Based 3D from Casual Videos via Point Track Processing [22.563073026889324]
そこで我々は,カジュアルビデオから3D構造とカメラの位置を動的コンテンツから推定できる学習ベースのTracksTo4Dを提案する。
TracksTo4Dは、カジュアルなビデオのデータセットに基づいて教師なしの方法で訓練される。
実験により、TracksTo4Dは、最先端の手法に匹敵する精度で、基礎となるビデオの時間点雲とカメラの位置を再構築できることが示された。
論文 参考訳(メタデータ) (2024-04-10T15:37:00Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。