論文の概要: Cross-Modal Object Tracking: Modality-Aware Representations and A
Unified Benchmark
- arxiv url: http://arxiv.org/abs/2111.04264v1
- Date: Mon, 8 Nov 2021 03:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 00:41:26.182274
- Title: Cross-Modal Object Tracking: Modality-Aware Representations and A
Unified Benchmark
- Title(参考訳): クロスモーダルなオブジェクト追跡: モダリティを意識した表現と統一ベンチマーク
- Authors: Chenglong Li, Tianhao Zhu, Lei Liu, Xiaonan Si Zilin Fan, Sulan Zhai
- Abstract要約: 多くの視覚系では、視覚的トラッキングはしばしばRGB画像シーケンスに基づいており、一部のターゲットは低照度環境では無効である。
追従過程におけるRGBとNIRの出現ギャップを軽減するために,モダリティを意識したターゲット表現を学習する新しいアルゴリズムを提案する。
無料の学術的利用のためにデータセットをリリースし、データセットのダウンロードリンクとコードを近くリリースします。
- 参考スコア(独自算出の注目度): 9.583182850435405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many visual systems, visual tracking often bases on RGB image sequences,
in which some targets are invalid in low-light conditions, and tracking
performance is thus affected significantly. Introducing other modalities such
as depth and infrared data is an effective way to handle imaging limitations of
individual sources, but multi-modal imaging platforms usually require elaborate
designs and cannot be applied in many real-world applications at present.
Near-infrared (NIR) imaging becomes an essential part of many surveillance
cameras, whose imaging is switchable between RGB and NIR based on the light
intensity. These two modalities are heterogeneous with very different visual
properties and thus bring big challenges for visual tracking. However, existing
works have not studied this challenging problem. In this work, we address the
cross-modal object tracking problem and contribute a new video dataset,
including 654 cross-modal image sequences with over 481K frames in total, and
the average video length is more than 735 frames. To promote the research and
development of cross-modal object tracking, we propose a new algorithm, which
learns the modality-aware target representation to mitigate the appearance gap
between RGB and NIR modalities in the tracking process. It is plug-and-play and
could thus be flexibly embedded into different tracking frameworks. Extensive
experiments on the dataset are conducted, and we demonstrate the effectiveness
of the proposed algorithm in two representative tracking frameworks against 17
state-of-the-art tracking methods. We will release the dataset for free
academic usage, dataset download link and code will be released soon.
- Abstract(参考訳): 多くの視覚システムでは、視覚追跡はしばしばrgb画像シーケンスに基づいており、一部のターゲットは低照度条件では無効であり、追跡性能は著しく影響を受ける。
深度データや赤外線データなどの他のモダリティの導入は、個々のソースのイメージング制限を処理する効果的な方法であるが、マルチモーダルイメージングプラットフォームは通常、精巧な設計を必要とし、現在多くの現実世界のアプリケーションに適用できない。
近赤外(NIR)イメージングは、多くの監視カメラにおいて不可欠な部分となり、RGBとNIRを光強度に基づいて切り換えることができる。
これら2つのモダリティは、非常に異なる視覚特性を持つ異質であり、ビジュアルトラッキングに大きな課題をもたらす。
しかし、既存の研究ではこの問題は研究されていない。
本研究では,クロスモーダルオブジェクト追跡の問題に対処し,合計481kフレーム以上の654のクロスモーダル画像シーケンスを含む新たなビデオデータセットを作成し,平均映像長は735フレーム以上である。
クロスモーダル物体追跡の研究開発を促進するため,トラッキングプロセスにおけるRGBとNIRの出現ギャップを軽減するために,モダリティを意識した対象表現を学習するアルゴリズムを提案する。
プラグアンドプレイであり、異なるトラッキングフレームワークに柔軟に組み込むことができる。
提案手法の有効性を2つの代表的な追跡フレームワークを用いて検証し,提案手法の有効性を検証した。
無料のアカデミック利用向けにデータセットをリリースし、データセットダウンロードリンクとコードはまもなくリリースします。
関連論文リスト
- CRSOT: Cross-Resolution Object Tracking using Unaligned Frame and Event
Cameras [43.699819213559515]
既存のRGB-DVSトラッキング用のデータセットは、DVS346カメラで収集される。
我々は、特別に構築されたデータ取得システムを用いて収集された、最初の不整合フレームイベントデータセットCRSOTを構築した。
ゆるやかなRGBイベントデータを用いても、ロバストなトラッキングを実現することのできる、新しい非整列オブジェクト追跡フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-05T14:20:22Z) - Cross-Modal Object Tracking via Modality-Aware Fusion Network and A
Large-Scale Dataset [20.729414075628814]
我々は、Modality-Aware Fusion Network (MAFNet) と呼ばれる適応型クロスモーダル物体追跡アルゴリズムを提案する。
MAFNetは、適応重み付け機構を用いて、RGBとNIRの両方からの情報を効率的に統合する。
論文 参考訳(メタデータ) (2023-12-22T05:22:33Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - mEBAL2 Database and Benchmark: Image-based Multispectral Eyeblink Detection [14.052943954940758]
本研究は、RGBおよび近赤外(NIR)個々の画像における新しいマルチスペクトルデータベースとアイブリンク検出のための新しいアプローチを導入する。
mEBAL2は、現存する最大のアイリンクデータベースである。
mEBAL2は180人の学生から21,100の画像シーケンスを含んでいる。
論文 参考訳(メタデータ) (2023-09-14T17:25:25Z) - Diverse Embedding Expansion Network and Low-Light Cross-Modality
Benchmark for Visible-Infrared Person Re-identification [26.71900654115498]
多様な埋め込み拡張ネットワーク(DEEN)と呼ばれる,埋め込み空間における新たな拡張ネットワークを提案する。
提案したDEENは,多種多様な埋め込みを効果的に生成し,情報的特徴表現を学習する。
9RGB/IRカメラでキャプチャされた1,064個の識別された46,767個のバウンディングボックスを含む低照度クロスモダリティ(LLCM)データセットを提供する。
論文 参考訳(メタデータ) (2023-03-25T14:24:56Z) - Learning Dual-Fused Modality-Aware Representations for RGBD Tracking [67.14537242378988]
従来のRGBオブジェクトトラッキングと比較して、奥行きモードの追加は、ターゲットとバックグラウンドの干渉を効果的に解決することができる。
既存のRGBDトラッカーでは2つのモードを別々に使用しており、特に有用な共有情報は無視されている。
DMTracker(Dual-fused Modality-aware Tracker)を提案する。DMTrackerは,RGBDのロバストな追跡のために,対象対象物の情報的および識別的表現を学習することを目的としている。
論文 参考訳(メタデータ) (2022-11-06T07:59:07Z) - Learning Modal-Invariant and Temporal-Memory for Video-based
Visible-Infrared Person Re-Identification [46.49866514866999]
主にビデオベースのクロスモーダル人物Re-ID法について研究する。
トラックレット内のフレームの増加により,性能が向上することが証明された。
モーダル不変部分空間に2つのモダリティを投影する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-04T04:43:52Z) - Scalable and Real-time Multi-Camera Vehicle Detection,
Re-Identification, and Tracking [58.95210121654722]
理想化されたビデオストリームやキュレートされたビデオストリームの代わりに,リアルタイムで低解像度のCCTVを処理する,リアルタイムな都市規模のマルチカメラ車両追跡システムを提案する。
私たちの手法は、公共のリーダーボードで上位5人のパフォーマーにランク付けされています。
論文 参考訳(メタデータ) (2022-04-15T12:47:01Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。