論文の概要: Awesome Multi-modal Object Tracking
- arxiv url: http://arxiv.org/abs/2405.14200v1
- Date: Thu, 23 May 2024 05:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 18:45:29.228896
- Title: Awesome Multi-modal Object Tracking
- Title(参考訳): 素晴らしいマルチモーダル物体追跡
- Authors: Chunhui Zhang, Li Liu, Hao Wen, Xi Zhou, Yanfeng Wang,
- Abstract要約: マルチモーダルオブジェクトトラッキング(MMOT)は、様々なモダリティからのデータを組み合わせて、ビデオシーケンス中の任意のオブジェクトの状態を推定する新興分野である。
本報告では,MMOTの最近の進歩を追究するために,包括的調査を行う。
- 参考スコア(独自算出の注目度): 41.76977058932557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal object tracking (MMOT) is an emerging field that combines data from various modalities, \eg vision (RGB), depth, thermal infrared, event, language and audio, to estimate the state of an arbitrary object in a video sequence. It is of great significance for many applications such as autonomous driving and intelligent surveillance. In recent years, MMOT has received more and more attention. However, existing MMOT algorithms mainly focus on two modalities (\eg RGB+depth, RGB+thermal infrared, and RGB+language). To leverage more modalities, some recent efforts have been made to learn a unified visual object tracking model for any modality. Additionally, some large-scale multi-modal tracking benchmarks have been established by simultaneously providing more than two modalities, such as vision-language-audio (\eg WebUAV-3M) and vision-depth-language (\eg UniMod1K). To track the latest progress in MMOT, we conduct a comprehensive investigation in this report. Specifically, we first divide existing MMOT tasks into five main categories, \ie RGBL tracking, RGBE tracking, RGBD tracking, RGBT tracking, and miscellaneous (RGB+X), where X can be any modality, such as language, depth, and event. Then, we analyze and summarize each MMOT task, focusing on widely used datasets and mainstream tracking algorithms based on their technical paradigms (\eg self-supervised learning, prompt learning, knowledge distillation, generative models, and state space models). Finally, we maintain a continuously updated paper list for MMOT at https://github.com/983632847/Awesome-Multimodal-Object-Tracking.
- Abstract(参考訳): MMOT(Multi-modal Object Tracking)は、様々なモダリティ(RGB)、深度、熱赤外、イベント、言語、オーディオなどのデータを組み合わせて、ビデオシーケンス中の任意のオブジェクトの状態を推定する新興分野である。
自律運転やインテリジェントな監視といった多くのアプリケーションにとって、これは大きな意味を持つ。
近年、MMOTはますます注目を集めている。
しかし、既存のMMOTアルゴリズムは主に2つのモード(RGB+深度、RGB+熱赤外、RGB+言語)に焦点を当てている。
よりモダリティを活用するために、あらゆるモダリティに対して統一された視覚オブジェクト追跡モデルを学ぶための最近の試みがある。
さらに、視覚言語オーディオ (\eg WebUAV-3M) と視覚深度言語 (\eg UniMod1K) の2つ以上のモダリティを同時に提供することで、大規模なマルチモーダル追跡ベンチマークが確立されている。
本報告では,MMOTの最近の進歩を追究するために,包括的調査を行う。
具体的には,既存のMMOTタスクを,RGBL追跡,RGBE追跡,RGBD追跡,RGBT追跡,雑多性(RGB+X)の5つのカテゴリに分割する。
そして,各MMOTタスクを分析し,その技術パラダイム(自己教師型学習,素早い学習,知識蒸留,生成モデル,状態空間モデル)に基づいて,広く使用されているデータセットと主流追跡アルゴリズムに着目して要約する。
最後に、MMOTの更新されたペーパーリストをhttps://github.com/983632847/Awesome-Multimodal-Object-Tracking.comで継続的に維持する。
関連論文リスト
- Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - ReIDTracker Sea: the technical report of BoaTrack and SeaDronesSee-MOT
challenge at MaCVi of WACV24 [0.0]
我々のソリューションは、無人航空機(UAV)と無人表面車両(USV)の利用シナリオにおける多目的追跡の探索を試みる。
この方式は、UAVベースのマルチオブジェクト追跡とUSVベースのマルチオブジェクト追跡ベンチマークの両方でトップ3のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-11-12T07:37:07Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Visual Prompt Multi-Modal Tracking [71.53972967568251]
Visual Prompt Multi-modal Tracking (ViPT)は、凍結したトレーニング済み基礎モデルを様々な下流マルチモーダル追跡タスクに適応させるモーダル関連プロンプトを学習する。
ViPTは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、複数のダウンストリームトラッキングタスクにおいて、完全な微調整パラダイムを上回っている。
論文 参考訳(メタデータ) (2023-03-20T01:51:07Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - Probabilistic 3D Multi-Modal, Multi-Object Tracking for Autonomous
Driving [22.693895321632507]
異なる訓練可能なモジュールからなる確率的、マルチモーダル、マルチオブジェクトトラッキングシステムを提案する。
本手法はNuScenes Trackingデータセットの現在の状態を上回っていることを示した。
論文 参考訳(メタデータ) (2020-12-26T15:00:54Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。