論文の概要: Sparse3DTrack: Monocular 3D Object Tracking Using Sparse Supervision
- arxiv url: http://arxiv.org/abs/2603.18298v1
- Date: Wed, 18 Mar 2026 21:36:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.856295
- Title: Sparse3DTrack: Monocular 3D Object Tracking Using Sparse Supervision
- Title(参考訳): Sparse3DTrack:スパーススーパービジョンを用いた単眼3Dオブジェクト追跡
- Authors: Nikhil Gosala, B. Ravi Kiran, Senthil Yogamani, Abhinav Valada,
- Abstract要約: モノクロ3Dオブジェクトトラッキングは、ビデオフレーム全体で時間的に一貫した3Dオブジェクトのポーズを推定することを目的としている。
既存の最先端のアプローチは、完全に監視されており、長いビデオシーケンスよりも密集した3Dアノテーションに依存している。
モノクロ3次元物体追跡のための最初の教師付きフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.586885757497203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object tracking aims to estimate temporally consistent 3D object poses across video frames, enabling autonomous agents to reason about scene dynamics. However, existing state-of-the-art approaches are fully supervised and rely on dense 3D annotations over long video sequences, which are expensive to obtain and difficult to scale. In this work, we address this fundamental limitation by proposing the first sparsely supervised framework for monocular 3D object tracking. Our approach decomposes the task into two sequential sub-problems: 2D query matching and 3D geometry estimation. Both components leverage the spatio-temporal consistency of image sequences to augment a sparse set of labeled samples and learn rich 2D and 3D representations of the scene. Leveraging these learned cues, our model automatically generates high-quality 3D pseudolabels across entire videos, effectively transforming sparse supervision into dense 3D track annotations. This enables existing fully-supervised trackers to effectively operate under extreme label sparsity. Extensive experiments on the KITTI and nuScenes datasets demonstrate that our method significantly improves tracking performance, achieving an improvement of up to 15.50 p.p. while using at most four ground truth annotations per track.
- Abstract(参考訳): モノクロ3Dオブジェクトトラッキングは、ビデオフレーム全体で時間的に一貫した3Dオブジェクトのポーズを推定することを目的としており、自律的なエージェントがシーンのダイナミクスを推論することができる。
しかし、既存の最先端のアプローチは、完全に教師され、長いビデオシーケンスよりも高密度な3Dアノテーションに依存している。
本研究は,モノクロ3次元物体追跡のための疎制御フレームワークを提案することで,この基本的な制約に対処する。
提案手法では,タスクを2次元クエリマッチングと3次元幾何推定という2つの逐次サブプロブレムに分解する。
両方のコンポーネントは、画像シーケンスの時空間的一貫性を利用して、ラベル付きサンプルのスパースセットを拡大し、シーンのリッチな2Dおよび3D表現を学ぶ。
これらの学習方法を活用することで、我々のモデルはビデオ全体にわたって高品質な3D擬似ラベルを自動生成し、スパース・インスペクションを高密度な3Dトラック・アノテーションに変換する。
これにより、既存の完全教師付きトラッカーは、極端にラベルの間隔で効果的に操作できる。
KITTIとnuScenesデータセットの大規模な実験により,提案手法はトラック毎の4つの真実アノテーションを使用しながら,最大15.50 p.p.の改善を実現し,トラッキング性能を著しく向上することが示された。
関連論文リスト
- Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels [67.36972154532761]
モノクロビデオから各ピクセルの3D軌跡を推定することは重要であり、ビデオの3Dダイナミックスを包括的に理解する上で有望である。
最近のモノラルな3D追跡作業は印象的な性能を示しているが、第1フレーム上のスパースポイントのトラッキングや、高密度トラッキングのための遅い最適化ベースのフレームワークに限られている。
そこで我々は,Track4Worldと呼ばれるフィードフォワードモデルを提案し,世界中心座標系における全画素の効率的な3D追跡を可能にする。
論文 参考訳(メタデータ) (2026-03-03T03:45:43Z) - SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。
これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。
このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文 参考訳(メタデータ) (2025-07-16T17:59:03Z) - TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - 3D Visual Tracking Framework with Deep Learning for Asteroid Exploration [22.808962211830675]
本稿では,3次元追跡のための高精度かつリアルタイムな手法について検討する。
両眼ビデオシーケンス、深度マップ、様々な小惑星の点雲を含む、新しい大規模な3D小惑星追跡データセットが提示されている。
深層学習に基づく3DトラッキングフレームワークTrack3Dを提案する。このフレームワークは,2次元単分子トラッカーと,新しい軽量アモーダル軸整合バウンディングボックスネットワークであるA3BoxNetを備える。
論文 参考訳(メタデータ) (2021-11-21T04:14:45Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Tracking Emerges by Looking Around Static Scenes, with Neural 3D Mapping [23.456046776979903]
本稿では,任意の場面(静的あるいは動的)における静止点のマルチビューデータを利用して,ニューラル3Dマッピングモジュールを学習することを提案する。
ニューラル3Dマッパーは、RGB-Dデータを入力として消費し、深い特徴の3Dボクセルグリッドを出力として生成する。
教師なし3Dオブジェクトトラッカーは、教師なし2Dと2.5Dのトラッカーよりも優れており、教師なし3Dオブジェクトトラッカーの精度に近づいていることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。