論文の概要: Visual Object Tracking across Diverse Data Modalities: A Review
- arxiv url: http://arxiv.org/abs/2412.09991v1
- Date: Fri, 13 Dec 2024 09:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:58.770917
- Title: Visual Object Tracking across Diverse Data Modalities: A Review
- Title(参考訳): さまざまなデータモダリティをまたいだビジュアルオブジェクト追跡:レビュー
- Authors: Mengmeng Wang, Teli Ma, Shuo Xin, Xiaojun Hou, Jiazheng Xing, Guang Dai, Jingdong Wang, Yong Liu,
- Abstract要約: ビジュアルオブジェクト追跡(VOT)はコンピュータビジョンにおいて魅力的な重要な研究分野である。
まず, RGB, 熱赤外, 点雲追跡の3種類の主要な単一モードVOTについて検討した。
次に,RGB-Depth,RGB-Thermal,RGB-LiDAR,RGB-Languageの4種類のマルチモーダルVOTを要約する。
- 参考スコア(独自算出の注目度): 33.006051781123595
- License:
- Abstract: Visual Object Tracking (VOT) is an attractive and significant research area in computer vision, which aims to recognize and track specific targets in video sequences where the target objects are arbitrary and class-agnostic. The VOT technology could be applied in various scenarios, processing data of diverse modalities such as RGB, thermal infrared and point cloud. Besides, since no one sensor could handle all the dynamic and varying environments, multi-modal VOT is also investigated. This paper presents a comprehensive survey of the recent progress of both single-modal and multi-modal VOT, especially the deep learning methods. Specifically, we first review three types of mainstream single-modal VOT, including RGB, thermal infrared and point cloud tracking. In particular, we conclude four widely-used single-modal frameworks, abstracting their schemas and categorizing the existing inheritors. Then we summarize four kinds of multi-modal VOT, including RGB-Depth, RGB-Thermal, RGB-LiDAR and RGB-Language. Moreover, the comparison results in plenty of VOT benchmarks of the discussed modalities are presented. Finally, we provide recommendations and insightful observations, inspiring the future development of this fast-growing literature.
- Abstract(参考訳): Visual Object Tracking (VOT)はコンピュータビジョンにおいて魅力的な重要な研究領域であり、ターゲットオブジェクトが任意でクラスに依存しないビデオシーケンス内の特定のターゲットを認識し、追跡することを目的としている。
VOT技術は様々なシナリオに適用でき、RGB、熱赤外、点雲などの様々なモードのデータを処理することができる。
さらに, 動的かつ多様な環境を1つのセンサで処理できないため, マルチモーダルVOTについても検討した。
本稿では,最近のシングルモーダルVOTとマルチモーダルVOTの進展,特にディープラーニング手法に関する包括的調査を行う。
具体的には、RGB、サーマル赤外線、ポイントクラウドトラッキングを含む、メインストリームの3種類の単一モードVOTについてレビューする。
特に、広く使われている4つのシングルモーダルフレームワークを結論付け、スキーマを抽象化し、既存の継承者を分類する。
次に,RGB-Depth,RGB-Thermal,RGB-LiDAR,RGB-Languageの4種類のマルチモーダルVOTを要約する。
さらに、議論されたモダリティの多くのVOTベンチマークの比較結果を示す。
最後に、我々は、この急速に成長する文学の今後の発展を刺激するレコメンデーションと洞察に富んだ観察を提供する。
関連論文リスト
- Awesome Multi-modal Object Tracking [41.76977058932557]
マルチモーダルオブジェクトトラッキング(MMOT)は、様々なモダリティからのデータを組み合わせて、ビデオシーケンス中の任意のオブジェクトの状態を推定する新興分野である。
本報告では,MMOTの最近の進歩を追究するために,包括的調査を行う。
論文 参考訳(メタデータ) (2024-05-23T05:58:10Z) - Salient Object Detection in RGB-D Videos [11.805682025734551]
本稿では,データセットとモデルという2つの主要なコントリビューションについて述べる。
現実的な深度を持つ新しいRGB-D VSODデータセットであるRDVSデータセットを構築した。
RGB-D VSODに適した3ストリームネットワークであるDCTNet+を紹介する。
論文 参考訳(メタデータ) (2023-10-24T03:18:07Z) - InfraParis: A multi-modal and multi-task autonomous driving dataset [4.6740600790529365]
我々は、RGB、深さ、赤外線という3つのモードで複数のタスクをサポートするInfraParisという新しいデータセットを紹介した。
本研究では,意味的セグメンテーション,オブジェクト検出,深さ推定といったタスクのモデルを含む,最先端のベースライン技術の評価を行う。
論文 参考訳(メタデータ) (2023-09-27T16:07:43Z) - A Multi-modal Approach to Single-modal Visual Place Classification [2.580765958706854]
RGBと深度(D)を組み合わせたマルチセンサー融合アプローチが近年人気を集めている。
単一モードRGB画像分類タスクを擬似多モードRGB-D分類問題として再構成する。
これら2つのモダリティを適切に処理し、融合し、分類するための、実践的で完全に自己管理されたフレームワークについて説明する。
論文 参考訳(メタデータ) (2023-05-10T14:04:21Z) - Visual Prompt Multi-Modal Tracking [71.53972967568251]
Visual Prompt Multi-modal Tracking (ViPT)は、凍結したトレーニング済み基礎モデルを様々な下流マルチモーダル追跡タスクに適応させるモーダル関連プロンプトを学習する。
ViPTは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、複数のダウンストリームトラッキングタスクにおいて、完全な微調整パラダイムを上回っている。
論文 参考訳(メタデータ) (2023-03-20T01:51:07Z) - Learning Dual-Fused Modality-Aware Representations for RGBD Tracking [67.14537242378988]
従来のRGBオブジェクトトラッキングと比較して、奥行きモードの追加は、ターゲットとバックグラウンドの干渉を効果的に解決することができる。
既存のRGBDトラッカーでは2つのモードを別々に使用しており、特に有用な共有情報は無視されている。
DMTracker(Dual-fused Modality-aware Tracker)を提案する。DMTrackerは,RGBDのロバストな追跡のために,対象対象物の情報的および識別的表現を学習することを目的としている。
論文 参考訳(メタデータ) (2022-11-06T07:59:07Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - Multi-modal Visual Tracking: Review and Experimental Comparison [85.20414397784937]
マルチモーダルトラッキングアルゴリズム,特に可視深度(RGB-D)と可視温度(RGB-T)を要約する。
5つのデータセット上でトラッカーの有効性を分析する実験を行った。
論文 参考訳(メタデータ) (2020-12-08T02:39:38Z) - Bifurcated backbone strategy for RGB-D salient object detection [168.19708737906618]
我々は、RGB-Dの高次物体検出に固有のマルチモーダル・マルチレベルの性質を活用して、新しいカスケードリファインメントネットワークを考案する。
アーキテクチャは Bifurcated Backbone Strategy Network (BBS-Net) と呼ばれ、シンプルで効率的でバックボーンに依存しない。
論文 参考訳(メタデータ) (2020-07-06T13:01:30Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。