論文の概要: Visible-Thermal Multiple Object Tracking: Large-scale Video Dataset and Progressive Fusion Approach
- arxiv url: http://arxiv.org/abs/2408.00969v1
- Date: Fri, 2 Aug 2024 01:29:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 14:46:34.088073
- Title: Visible-Thermal Multiple Object Tracking: Large-scale Video Dataset and Progressive Fusion Approach
- Title(参考訳): Visible-Thermal Multiple Object Tracking:大規模ビデオデータセットとプログレッシブ・フュージョン・アプローチ
- Authors: Yabin Zhu, Qianwu Wang, Chenglong Li, Jin Tang, Zhixiang Huang,
- Abstract要約: VT-MOTと呼ばれる多目的追跡(MOT)のための大規模な可視熱ビデオベンチマークに貢献する。
VT-MOTには、582のビデオシーケンスペア、401kフレームペアの監視、ドローン、ハンドヘルドプラットフォームが含まれている。
VT-MOTの総合的な実験を行い,提案手法の優位性と有効性を示した。
- 参考スコア(独自算出の注目度): 17.286142856787222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The complementary benefits from visible and thermal infrared data are widely utilized in various computer vision task, such as visual tracking, semantic segmentation and object detection, but rarely explored in Multiple Object Tracking (MOT). In this work, we contribute a large-scale Visible-Thermal video benchmark for MOT, called VT-MOT. VT-MOT has the following main advantages. 1) The data is large scale and high diversity. VT-MOT includes 582 video sequence pairs, 401k frame pairs from surveillance, drone, and handheld platforms. 2) The cross-modal alignment is highly accurate. We invite several professionals to perform both spatial and temporal alignment frame by frame. 3) The annotation is dense and high-quality. VT-MOT has 3.99 million annotation boxes annotated and double-checked by professionals, including heavy occlusion and object re-acquisition (object disappear and reappear) challenges. To provide a strong baseline, we design a simple yet effective tracking framework, which effectively fuses temporal information and complementary information of two modalities in a progressive manner, for robust visible-thermal MOT. A comprehensive experiment are conducted on VT-MOT and the results prove the superiority and effectiveness of the proposed method compared with state-of-the-art methods. From the evaluation results and analysis, we specify several potential future directions for visible-thermal MOT. The project is released in https://github.com/wqw123wqw/PFTrack.
- Abstract(参考訳): 可視・熱赤外データによる相補的な利点は、視覚追跡、セマンティックセグメンテーション、オブジェクト検出など様々なコンピュータビジョンタスクで広く活用されているが、多重物体追跡(MOT)では滅多に研究されていない。
本稿では、VT-MOTと呼ばれるMOTのための大規模な可視熱ビデオベンチマークに貢献する。
VT-MOTには以下の利点がある。
1) データは大規模で多様である。
VT-MOTには、582のビデオシーケンスペア、401kフレームペアの監視、ドローン、ハンドヘルドプラットフォームが含まれている。
2) クロスモーダルアライメントは極めて正確である。
フレーム単位で空間的および時間的アライメントフレームを実行するために、複数の専門家を招待する。
3)アノテーションは密で高品質である。
VT-MOTには、3.99百万のアノテーションボックスがあり、専門家によって注釈付けされ、二重チェックされている。
本研究では,2つのモードの時間的情報と相補的情報を段階的に効果的に融合した,可視光熱MOTのための簡易かつ効果的な追跡フレームワークを設計する。
VT-MOTについて総合実験を行い, 提案手法の有効性と有効性を示した。
評価結果と解析結果から,可視光熱的MOTの今後の方向性を示す。
このプロジェクトはhttps://github.com/wqw123wqw/PFTrack.comで公開されている。
関連論文リスト
- MV-MOS: Multi-View Feature Fusion for 3D Moving Object Segmentation [4.386035726986601]
3D-to-2Dプロジェクションにおける動作と意味的特徴の有効活用と情報損失の回避は依然として重要な課題である。
点雲の異なる2次元表現からモーションセマンティックな特徴を融合させることにより,新しい多視点MOSモデル(MV-MOS)を提案する。
提案するマルチブランチ融合MOSフレームワークの有効性を総合実験により検証した。
論文 参考訳(メタデータ) (2024-08-20T07:30:00Z) - Lifting Multi-View Detection and Tracking to the Bird's Eye View [5.679775668038154]
マルチビュー検出と3Dオブジェクト認識の最近の進歩により、性能が大幅に向上した。
パラメータフリーとパラメータ化の両方の現代的なリフト法とマルチビューアグリゲーションを比較した。
堅牢な検出を学習するために,複数のステップの特徴を集約するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-19T09:33:07Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality
Collaboration [56.01625477187448]
MMPAT(MultiModality PAnoramic Multi-object Tracking framework)を提案する。
2次元パノラマ画像と3次元点雲を入力とし、マルチモーダルデータを用いて目標軌道を推定する。
提案手法は,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成するJRDBデータセット上で評価する。
論文 参考訳(メタデータ) (2021-05-31T03:16:38Z) - Probabilistic 3D Multi-Modal, Multi-Object Tracking for Autonomous
Driving [22.693895321632507]
異なる訓練可能なモジュールからなる確率的、マルチモーダル、マルチオブジェクトトラッキングシステムを提案する。
本手法はNuScenes Trackingデータセットの現在の状態を上回っていることを示した。
論文 参考訳(メタデータ) (2020-12-26T15:00:54Z) - Multi-modal Visual Tracking: Review and Experimental Comparison [85.20414397784937]
マルチモーダルトラッキングアルゴリズム,特に可視深度(RGB-D)と可視温度(RGB-T)を要約する。
5つのデータセット上でトラッカーの有効性を分析する実験を行った。
論文 参考訳(メタデータ) (2020-12-08T02:39:38Z) - Dense Scene Multiple Object Tracking with Box-Plane Matching [73.54369833671772]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要なタスクである。
密集したシーンにおけるMOT性能を改善するために,Box-Plane Matching (BPM)法を提案する。
3つのモジュールの有効性により、ACM MM Grand Challenge HiEve 2020において、私たちのチームはトラック1のリーダーボードで1位を獲得しました。
論文 参考訳(メタデータ) (2020-07-30T16:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。