論文の概要: Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2603.08199v1
- Date: Mon, 09 Mar 2026 10:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.792108
- Title: Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking
- Title(参考訳): Fusion-Poly:3次元多対象追跡のための空間時間融合に基づく多面体フレームワーク
- Authors: Xian Wu, Yitao Wu, Xiaoyu Li, Zijia Li, Lijun Zhao, Lining Sun,
- Abstract要約: Fusion-Polyは、非同期LiDARとカメラデータを統合する3D MOTのための時空間融合フレームワークである。
nuScenesテストセットでは、Fusion-Polyは76.5%のAMOTAを達成した。
- 参考スコア(独自算出の注目度): 11.834891226231898
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LiDAR-camera 3D multi-object tracking (MOT) combines rich visual semantics with accurate depth cues to improve trajectory consistency and tracking reliability. In practice, however, LiDAR and cameras operate at different sampling rates. To maintain temporal alignment, existing data pipelines usually synchronize heterogeneous sensor streams and annotate them at a reduced shared frequency, forcing most prior methods to perform spatial fusion only at synchronized timestamps through projection-based or learnable cross-sensor association. As a result, abundant asynchronous observations remain underexploited, despite their potential to support more frequent association and more robust trajectory estimation over short temporal intervals. To address this limitation, we propose Fusion-Poly, a spatial-temporal fusion framework for 3D MOT that integrates asynchronous LiDAR and camera data. Fusion-Poly associates trajectories with multi-modal observations at synchronized timestamps and with single-modal observations at asynchronous timestamps, enabling higher-frequency updates of motion and existence states. The framework contains three key components: a frequency-aware cascade matching module that adapts to synchronized and asynchronous frames according to available detection modalities; a frequency-aware trajectory estimation module that maintains trajectories through high-frequency motion prediction, differential updates, and confidence-calibrated lifecycle management; and a full-state observation alignment module that improves cross-modal consistency at synchronized timestamps by optimizing image-projection errors. On the nuScenes test set, Fusion-Poly achieves 76.5% AMOTA, establishing a new state of the art among tracking-by-detection 3D MOT methods. Extensive ablation studies further validate the effectiveness of each component. Code will be released.
- Abstract(参考訳): LiDAR-camera 3D Multi-Object Tracking (MOT)は、リッチな視覚的セマンティクスと正確な深度キューを組み合わせることで、軌道の整合性とトラッキングの信頼性を向上させる。
しかし実際には、LiDARとカメラは異なるサンプリングレートで動作している。
時間的アライメントを維持するために、既存のデータパイプラインは、通常、異種センサストリームを同期させ、共有周波数を下げてアノテートする。
その結果、短い時間間隔でより頻繁な関連とより堅牢な軌道推定をサポートする可能性にもかかわらず、豊富な非同期観測は未解明のままである。
この制限に対処するため,非同期LiDARとカメラデータを統合する3次元MOTのための時空間融合フレームワークFusion-Polyを提案する。
Fusion-Polyは、軌道を同期タイムスタンプでのマルチモーダル観測と非同期タイムスタンプでの単一モーダル観測に関連付け、動きと存在状態の高頻度更新を可能にする。
フレームワークは、利用可能な検出モードに応じて同期化および非同期フレームに適応する周波数対応カスケードマッチングモジュールと、高周波モーション予測、差分更新、信頼度調整によるライフサイクル管理を通じて軌道を維持する周波数対応軌道推定モジュールと、画像投影誤差を最適化して同期タイムスタンプにおけるクロスモーダル整合性を改善するフルステート監視アライメントモジュールとを含む。
nuScenesテストセットでは、Fusion-Polyは76.5%のAMOTAを達成した。
広範囲にわたるアブレーション研究は、各成分の有効性をさらに検証する。
コードはリリースされる。
関連論文リスト
- SwiTrack: Tri-State Switch for Cross-Modal Object Tracking [74.15663758681849]
クロスモーダルオブジェクトトラッキング(CMOT)は、ビデオストリームが異なるモード間で切り替える間、ターゲットの一貫性を維持する新しいタスクである。
SwiTrackは3つの特別なストリームを配置することでCMOTを再定義する新しいステートスイッチングフレームワークである。
論文 参考訳(メタデータ) (2025-11-20T10:52:54Z) - Delving into Dynamic Scene Cue-Consistency for Robust 3D Multi-Object Tracking [16.366398265001422]
3D多目的追跡は、自動運転分野において重要かつ困難な課題である。
本稿では,この原理を実現するために動的シーンCue-Consistency Tracker(DSC-Track)を提案する。
論文 参考訳(メタデータ) (2025-08-15T08:48:13Z) - Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking [53.33637391723555]
本研究では,STTrack というマルチモーダル空間時間追跡手法を提案する。
従来のパラダイムとは対照的に,マルチモーダル時間情報を含むトークン列を連続的に生成する時間状態生成器(TSG)を導入している。
これらの時間情報トークンは、次の時刻におけるターゲットの局所化を誘導し、ビデオフレーム間の長距離コンテキスト関係を確立し、ターゲットの時間軌道を捕捉するために使用される。
論文 参考訳(メタデータ) (2024-12-20T09:10:17Z) - StreamLTS: Query-based Temporal-Spatial LiDAR Fusion for Cooperative Object Detection [0.552480439325792]
我々は、広く使われているデータセットOPV2VとDairV2Xを適応させる、TA-COOD(Time-Aligned Cooperative Object Detection)を提案する。
実験結果から, 最先端の高密度モデルと比較して, 完全スパースフレームワークの優れた効率性が確認された。
論文 参考訳(メタデータ) (2024-07-04T10:56:10Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Joint Multi-Object Detection and Tracking with Camera-LiDAR Fusion for
Autonomous Driving [6.396288020763144]
カメラとLiDARの融合による多対象追跡(MOT)は、オブジェクト検出、親和性計算、データ関連の正確な結果をリアルタイムに要求する。
本稿では、オンライン共同検出・追跡手法と自律運転用ロバストデータアソシエーションを備えた効率的なマルチモーダルMOTフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-10T11:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。