論文の概要: Collaborating Vision, Depth, and Thermal Signals for Multi-Modal Tracking: Dataset and Algorithm
- arxiv url: http://arxiv.org/abs/2509.24741v1
- Date: Mon, 29 Sep 2025 13:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.995517
- Title: Collaborating Vision, Depth, and Thermal Signals for Multi-Modal Tracking: Dataset and Algorithm
- Title(参考訳): マルチモーダルトラッキングのための協調視覚・深度・熱信号:データセットとアルゴリズム
- Authors: Xue-Feng Zhu, Tianyang Xu, Yifan Pan, Jinjie Gu, Xi Li, Jiwen Lu, Xiao-Jun Wu, Josef Kittler,
- Abstract要約: 本研究は、可視RGB、深度(D)、熱赤外(TIR)を含む3つの相補的なモードを利用する、新しいマルチモーダルトラッキングタスクを導入する。
我々はRDTTrackと呼ばれる新しいマルチモーダルトラッカーを提案する。これは、事前訓練されたRGBのみの追跡モデルと迅速な学習技術を活用して、ロバストなトラッキングのためのトリモーダル情報を統合する。
実験の結果,提案手法の有効性と利点を実証し,既存のデュアルモーダル手法に対して有意な改善が認められた。
- 参考スコア(独自算出の注目度): 103.36490810025752
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing multi-modal object tracking approaches primarily focus on dual-modal paradigms, such as RGB-Depth or RGB-Thermal, yet remain challenged in complex scenarios due to limited input modalities. To address this gap, this work introduces a novel multi-modal tracking task that leverages three complementary modalities, including visible RGB, Depth (D), and Thermal Infrared (TIR), aiming to enhance robustness in complex scenarios. To support this task, we construct a new multi-modal tracking dataset, coined RGBDT500, which consists of 500 videos with synchronised frames across the three modalities. Each frame provides spatially aligned RGB, depth, and thermal infrared images with precise object bounding box annotations. Furthermore, we propose a novel multi-modal tracker, dubbed RDTTrack. RDTTrack integrates tri-modal information for robust tracking by leveraging a pretrained RGB-only tracking model and prompt learning techniques. In specific, RDTTrack fuses thermal infrared and depth modalities under a proposed orthogonal projection constraint, then integrates them with RGB signals as prompts for the pre-trained foundation tracking model, effectively harmonising tri-modal complementary cues. The experimental results demonstrate the effectiveness and advantages of the proposed method, showing significant improvements over existing dual-modal approaches in terms of tracking accuracy and robustness in complex scenarios.
- Abstract(参考訳): 既存のマルチモーダルオブジェクト追跡手法は主にRGB-DepthやRGB-Thermalのようなデュアルモーダルパラダイムに重点を置いているが、入力モダリティの制限により複雑なシナリオでは課題が残る。
このギャップに対処するために、複雑なシナリオにおけるロバスト性を高めることを目的とした、可視RGB、深度(D)、熱赤外(TIR)を含む3つの相補的なモードを利用する新しいマルチモーダルトラッキングタスクを導入する。
このタスクを支援するために,RGBDT500という新たなマルチモーダルトラッキングデータセットを構築した。
各フレームは、正確なオブジェクト境界ボックスアノテーションを備えた空間整列RGB、深度、熱赤外画像を提供する。
さらに,RDTTrackと呼ばれる新しいマルチモーダルトラッカーを提案する。
RDTTrackは、事前訓練されたRGBのみの追跡モデルと迅速な学習技術を活用することで、ロバストなトラッキングのためのトリモーダル情報を統合する。
具体的には、RDTTrackは直交射影制約の下で熱赤外および深度変調を融合し、事前訓練された基礎追跡モデルのプロンプトとしてRGB信号と統合し、三次相補的手がかりを効果的に調和させる。
実験により,提案手法の有効性と利点を実証し,複雑なシナリオにおける精度の追跡とロバスト性の観点から,既存のデュアルモーダルアプローチよりも大幅に改善されたことを示す。
関連論文リスト
- Diff-MM: Exploring Pre-trained Text-to-Image Generation Model for Unified Multi-modal Object Tracking [45.341224888996514]
マルチモーダルオブジェクトトラッキングは、深度、熱赤外、イベントフロー、言語などの補助的なモダリティを統合する。
既存の手法は通常、RGBベースのトラッカーから始まり、トレーニングデータのみから補助的なモダリティを理解することを学ぶ。
本研究では,事前学習したテキスト・ツー・イメージ生成モデルのマルチモーダル理解機能を利用して,統合されたマルチモーダル・トラッカーDiff-MMを提案する。
論文 参考訳(メタデータ) (2025-05-19T01:42:13Z) - Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文 参考訳(メタデータ) (2025-05-07T19:37:20Z) - SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking [19.50096632818305]
VOT(Multimodal Visual Object Tracking)は、その堅牢性により、最近大きな注目を集めている。
近年の研究では、事前訓練されたRGBベースのトラッカーをマルチモーダルデータに転送するために、プロンプトチューニングを利用している。
我々はSDSTrackと呼ばれる新しい対称マルチモーダルトラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T04:15:50Z) - Learning Dual-Fused Modality-Aware Representations for RGBD Tracking [67.14537242378988]
従来のRGBオブジェクトトラッキングと比較して、奥行きモードの追加は、ターゲットとバックグラウンドの干渉を効果的に解決することができる。
既存のRGBDトラッカーでは2つのモードを別々に使用しており、特に有用な共有情報は無視されている。
DMTracker(Dual-fused Modality-aware Tracker)を提案する。DMTrackerは,RGBDのロバストな追跡のために,対象対象物の情報的および識別的表現を学習することを目的としている。
論文 参考訳(メタデータ) (2022-11-06T07:59:07Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z) - Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking [85.333260415532]
我々はRGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。
外観キューが信頼できない場合には、動作キューを考慮に入れ、トラッカーを堅牢にする。
最近の3つのRGB-T追跡データセットの多くの結果から、提案したトラッカーは他の最先端のアルゴリズムよりも大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2020-07-04T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。