論文の概要: Omni Survey for Multimodality Analysis in Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2508.13000v1
- Date: Mon, 18 Aug 2025 15:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.444027
- Title: Omni Survey for Multimodality Analysis in Visual Object Tracking
- Title(参考訳): Omni Survey for Multimodality Analysis in Visual Object Tracking
- Authors: Zhangyong Tang, Tianyang Xu, Xuefeng Zhu, Hui Li, Shaochuan Zhao, Tao Zhou, Chunyang Cheng, Xiaojun Wu, Josef Kittler,
- Abstract要約: 本稿では,Multi-Modal Visual Object Tracking (MMVOT) の最も重要な課題について検討する。
MMVOTは、データ収集、モダリティアライメントとアノテーション、モデル設計、評価の4つの重要な側面において、シングルモーダルトラッキングとは異なる。
- 参考スコア(独自算出の注目度): 34.25429207685124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of smart cities has led to the generation of massive amounts of multi-modal data in the context of a range of tasks that enable a comprehensive monitoring of the smart city infrastructure and services. This paper surveys one of the most critical tasks, multi-modal visual object tracking (MMVOT), from the perspective of multimodality analysis. Generally, MMVOT differs from single-modal tracking in four key aspects, data collection, modality alignment and annotation, model designing, and evaluation. Accordingly, we begin with an introduction to the relevant data modalities, laying the groundwork for their integration. This naturally leads to a discussion of challenges of multi-modal data collection, alignment, and annotation. Subsequently, existing MMVOT methods are categorised, based on different ways to deal with visible (RGB) and X modalities: programming the auxiliary X branch with replicated or non-replicated experimental configurations from the RGB branch. Here X can be thermal infrared (T), depth (D), event (E), near infrared (NIR), language (L), or sonar (S). The final part of the paper addresses evaluation and benchmarking. In summary, we undertake an omni survey of all aspects of multi-modal visual object tracking (VOT), covering six MMVOT tasks and featuring 338 references in total. In addition, we discuss the fundamental rhetorical question: Is multi-modal tracking always guaranteed to provide a superior solution to unimodal tracking with the help of information fusion, and if not, in what circumstances its application is beneficial. Furthermore, for the first time in this field, we analyse the distributions of the object categories in the existing MMVOT datasets, revealing their pronounced long-tail nature and a noticeable lack of animal categories when compared with RGB datasets.
- Abstract(参考訳): スマートシティの開発は、スマートシティのインフラストラクチャとサービスの包括的な監視を可能にする、さまざまなタスクのコンテキストにおいて、大量のマルチモーダルデータを発生させている。
本稿では,マルチモーダル・ビジュアル・オブジェクト・トラッキング(MMVOT)について,マルチモーダル分析の観点から検討する。
一般に、MMVOTは、データ収集、モダリティアライメントとアノテーション、モデル設計、評価の4つの重要な側面において、シングルモーダルトラッキングとは異なる。
したがって、私たちは関連するデータモダリティの導入から始め、それらの統合の土台を築きます。
これは自然に、マルチモーダルデータ収集、アライメント、アノテーションの課題に関する議論につながります。
その後、既存のMMVOTメソッドは、可視(RGB)とXのモダリティを扱う様々な方法に基づいて分類される: 補助的なXブランチをRGBブランチから複製または非複製された実験構成でプログラミングする。
ここでXは熱赤外(T)、深度(D)、事象(E)、近赤外(NIR)、言語(L)、ソナー(S)である。
論文の最後の部分は、評価とベンチマークに関するものである。
まとめると、マルチモーダル・ビジュアル・オブジェクト・トラッキング(VOT)のすべての側面を網羅し、6つのMMVOTタスクをカバーし、合計338の参照を特徴とするOmniサーベイを実施している。
マルチモーダルトラッキングは、情報融合の助けを借りて、より優れたユニモーダルトラッキングソリューションを提供することが常に保証されているか、そして、そうでなければ、その応用がどのような状況で役に立つか。
さらに,本分野では,既存のMMVOTデータセットにおける対象カテゴリの分布を初めて分析し,その顕著な長尾性およびRGBデータセットと比較した場合の動物カテゴリーの欠如を明らかにした。
関連論文リスト
- FusionTrack: End-to-End Multi-Object Tracking in Arbitrary Multi-View Environment [7.5152380894919055]
本稿では、追跡と再識別を合理的に統合し、堅牢な軌跡関連のための多視点情報を活用するエンド・ツー・エンド・フレームワークを提案する。
MDMOTと他のベンチマークデータセットの実験は、FusionTrackがシングルビューとマルチビュートラッキングの両方で最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-24T14:51:19Z) - MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High-Intensity Surgical Environments [49.45034796115852]
手術室(オペレーティングルーム、英: Operating room, OR)は、医療スタッフ、工具、機器間の相互作用を正確に理解する必要がある複雑な高所環境である。
現在のデータセットは、スケール、リアリズムにおいて不足しており、ORシーンの性質を捉えておらず、ORモデリングにおけるマルチモーダルを制限する。
本稿では,現実的で大規模なマルチモーダルORデータセットであるMM-ORと,マルチモーダルなシーングラフ生成を実現するための最初のデータセットを紹介する。
論文 参考訳(メタデータ) (2025-03-04T13:00:52Z) - Composed Multi-modal Retrieval: A Survey of Approaches and Applications [81.54640206021757]
複合マルチモーダル検索(CMR)は次世代技術として誕生する。
CMRは、参照視覚入力とテキスト修正を統合することで、画像やビデオをクエリすることを可能にする。
本稿では,CMRの基礎的課題,技術的進歩,応用について概説する。
論文 参考訳(メタデータ) (2025-03-03T09:18:43Z) - Visual Object Tracking across Diverse Data Modalities: A Review [33.006051781123595]
ビジュアルオブジェクト追跡(VOT)はコンピュータビジョンにおいて魅力的な重要な研究分野である。
まず, RGB, 熱赤外, 点雲追跡の3種類の主要な単一モードVOTについて検討した。
次に,RGB-Depth,RGB-Thermal,RGB-LiDAR,RGB-Languageの4種類のマルチモーダルVOTを要約する。
論文 参考訳(メタデータ) (2024-12-13T09:25:18Z) - Awesome Multi-modal Object Tracking [41.76977058932557]
マルチモーダルオブジェクトトラッキング(MMOT)は、様々なモダリティからのデータを組み合わせて、ビデオシーケンス中の任意のオブジェクトの状態を推定する新興分野である。
本報告では,MMOTの最近の進歩を追究するために,包括的調査を行う。
論文 参考訳(メタデータ) (2024-05-23T05:58:10Z) - MMRDN: Consistent Representation for Multi-View Manipulation
Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。
異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。
これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文 参考訳(メタデータ) (2023-04-25T05:55:29Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset:
Collection, Insights and Improvements [14.707930573950787]
この種のマルチモーダルデータセットの1つである MuSe-CaR について述べる。
このデータは、最近第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして公開された。
論文 参考訳(メタデータ) (2021-01-15T10:40:37Z) - Multi-modal Visual Tracking: Review and Experimental Comparison [85.20414397784937]
マルチモーダルトラッキングアルゴリズム,特に可視深度(RGB-D)と可視温度(RGB-T)を要約する。
5つのデータセット上でトラッカーの有効性を分析する実験を行った。
論文 参考訳(メタデータ) (2020-12-08T02:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。