論文の概要: Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels
- arxiv url: http://arxiv.org/abs/2603.02573v2
- Date: Thu, 05 Mar 2026 05:37:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 15:25:24.260972
- Title: Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels
- Title(参考訳): Track4World:全レンズの3D追跡をフィードフォワードで行う
- Authors: Jiahao Lu, Jiayi Xu, Wenbo Hu, Ruijie Zhu, Chengfeng Zhao, Sai-Kit Yeung, Ying Shan, Yuan Liu,
- Abstract要約: モノクロビデオから各ピクセルの3D軌跡を推定することは重要であり、ビデオの3Dダイナミックスを包括的に理解する上で有望である。
最近のモノラルな3D追跡作業は印象的な性能を示しているが、第1フレーム上のスパースポイントのトラッキングや、高密度トラッキングのための遅い最適化ベースのフレームワークに限られている。
そこで我々は,Track4Worldと呼ばれるフィードフォワードモデルを提案し,世界中心座標系における全画素の効率的な3D追跡を可能にする。
- 参考スコア(独自算出の注目度): 67.36972154532761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating the 3D trajectory of every pixel from a monocular video is crucial and promising for a comprehensive understanding of the 3D dynamics of videos. Recent monocular 3D tracking works demonstrate impressive performance, but are limited to either tracking sparse points on the first frame or a slow optimization-based framework for dense tracking. In this paper, we propose a feedforward model, called Track4World, enabling an efficient holistic 3D tracking of every pixel in the world-centric coordinate system. Built on the global 3D scene representation encoded by a VGGT-style ViT, Track4World applies a novel 3D correlation scheme to simultaneously estimate the pixel-wise 2D and 3D dense flow between arbitrary frame pairs. The estimated scene flow, along with the reconstructed 3D geometry, enables subsequent efficient 3D tracking of every pixel of this video. Extensive experiments on multiple benchmarks demonstrate that our approach consistently outperforms existing methods in 2D/3D flow estimation and 3D tracking, highlighting its robustness and scalability for real-world 4D reconstruction tasks.
- Abstract(参考訳): モノクロビデオから各ピクセルの3D軌跡を推定することは重要であり、ビデオの3Dダイナミックスを包括的に理解する上で有望である。
最近のモノラルな3D追跡作業は目覚ましい性能を示しているが、第1フレーム上のスパースポイントのトラッキングか、高密度トラッキングのための遅い最適化ベースのフレームワークに限られている。
本論文では,世界中心座標系における全画素の効率的な3D追跡を可能にする,Track4Worldと呼ばれるフィードフォワードモデルを提案する。
VGGTスタイルのVTで符号化されたグローバルな3Dシーン表現に基づいて、Track4Worldは、任意のフレーム対間のピクセルワイド2Dと3D密流を同時に推定する新しい3D相関スキームを適用した。
推定されたシーンフローは、再構成された3D形状とともに、このビデオのすべてのピクセルの効率的な3D追跡を可能にする。
提案手法は2次元・3次元フロー推定と3次元トラッキングにおいて既存の手法より一貫して優れており,実世界の4次元再構成タスクの堅牢性と拡張性を強調している。
関連論文リスト
- TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels [49.456225518469516]
モノクロ3Dトラッキングは、単一のモノクロビデオから3D空間内のピクセルの長期的な動きをキャプチャすることを目的としている。
本研究では,世界中心の3D座標系において,ほぼすべての画素の高密度3D追跡のための新しいパイプラインであるTrackingWorldを提案する。
論文 参考訳(メタデータ) (2025-12-09T08:35:42Z) - SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。
これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。
このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文 参考訳(メタデータ) (2025-07-16T17:59:03Z) - TAPIP3D: Tracking Any Point in Persistent 3D Geometry [25.357437591411347]
本稿では,モノクロおよびRGB-Dビデオにおける長期3次元点追跡の新しい手法であるTAPIP3Dを紹介する。
TAPIP3Dは、ビデオをカメラ安定化機能クラウドとして表現し、深度とカメラモーション情報を活用する。
我々の3D中心の定式化は既存の3D点追跡法よりも性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-04-20T19:09:43Z) - TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - SpatialTracker: Tracking Any 2D Pixels in 3D Space [71.58016288648447]
本稿では,画像投影による問題点を軽減するために,3次元空間における点軌道の推定を提案する。
この手法はSpatialTrackerと呼ばれ、2Dピクセルをモノクロ深度推定器を用いて3Dにリフトする。
3Dでのトラッキングにより、ピクセルを異なる剛性部分にクラスタ化する剛性埋め込みを同時に学習しながら、ARAP(as-rigid-as-possible)制約を活用することができます。
論文 参考訳(メタデータ) (2024-04-05T17:59:25Z) - Tracking by 3D Model Estimation of Unknown Objects in Videos [122.56499878291916]
この表現は限定的であり、代わりに明示的なオブジェクト表現を用いて2次元追跡をガイドし改善することを提案する。
我々の表現は、全てのビデオフレームのオブジェクト上の全ての3Dポイント間の複雑な長期密度対応問題に取り組む。
提案手法は, 最適3次元形状, テクスチャ, 6DoFのポーズを推定するために, 新たな損失関数を最小化する。
論文 参考訳(メタデータ) (2023-04-13T11:32:36Z) - 3D Visual Tracking Framework with Deep Learning for Asteroid Exploration [22.808962211830675]
本稿では,3次元追跡のための高精度かつリアルタイムな手法について検討する。
両眼ビデオシーケンス、深度マップ、様々な小惑星の点雲を含む、新しい大規模な3D小惑星追跡データセットが提示されている。
深層学習に基づく3DトラッキングフレームワークTrack3Dを提案する。このフレームワークは,2次元単分子トラッカーと,新しい軽量アモーダル軸整合バウンディングボックスネットワークであるA3BoxNetを備える。
論文 参考訳(メタデータ) (2021-11-21T04:14:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。