論文の概要: RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2602.22033v1
- Date: Wed, 25 Feb 2026 15:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.888129
- Title: RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking
- Title(参考訳): RT-RMOT:マルチオブジェクト追跡のためのRGBサーマル参照のためのデータセットとフレームワーク
- Authors: Yanqiu Yu, Zhifan Jin, Sijia Chen, Tongfei Chu, En Yu, Liman Liu, Wenbing Tao,
- Abstract要約: RT-RMOTと呼ばれる新しいRGBサーマルRMOTタスクを提案する。
本稿では,RGB-ThermalModality(RefRT)をベースとして,最初の参照多目的追跡データセットを構築した。
さらに,RGB,熱,テキスト機能を統合したマルチモーダル大規模言語モデル(MLLM)に基づくフレームワークであるRTrackを提案する。
- 参考スコア(独自算出の注目度): 33.865410526024746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Multi-Object Tracking has attracted increasing attention due to its human-friendly interactive characteristics, yet it exhibits limitations in low-visibility conditions, such as nighttime, smoke, and other challenging scenarios. To overcome this limitation, we propose a new RGB-Thermal RMOT task, named RT-RMOT, which aims to fuse RGB appearance features with the illumination robustness of the thermal modality to enable all-day referring multi-object tracking. To promote research on RT-RMOT, we construct the first Referring Multi-Object Tracking dataset under RGB-Thermal modality, named RefRT. It contains 388 language descriptions, 1,250 tracked targets, and 166,147 Language-RGB-Thermal (L-RGB-T) triplets. Furthermore, we propose RTrack, a framework built upon a multimodal large language model (MLLM) that integrates RGB, thermal, and textual features. Since the initial framework still leaves room for improvement, we introduce a Group Sequence Policy Optimization (GSPO) strategy to further exploit the model's potential. To alleviate training instability during RL fine-tuning, we introduce a Clipped Advantage Scaling (CAS) strategy to suppress gradient explosion. In addition, we design Structured Output Reward and Comprehensive Detection Reward to balance exploration and exploitation, thereby improving the completeness and accuracy of target perception. Extensive experiments on the RefRT dataset demonstrate the effectiveness of the proposed RTrack framework.
- Abstract(参考訳): Refering Multi-Object Trackingは、人間フレンドリーなインタラクティブな特徴から注目されているが、夜間、煙、その他の困難なシナリオなど、低視認性条件に制限がある。
この制限を克服するため,RT-RMOTと呼ばれる新しいRGBサーマルRMOTタスクを提案する。
RT-RMOTの研究を促進するために,RGB-Thermal modality(RfRT)をベースとして,RGB-Thermal modality(RGB-Thermal modality)に基づくReferring Multi-Object Trackingデータセットを構築した。
388の言語記述、1,250の追跡対象、166,147の言語-RGB-Thermal (L-RGB-T)の三つ子を含んでいる。
さらに,RGB,熱,テキスト機能を統合したマルチモーダル大規模言語モデル(MLLM)に基づくフレームワークであるRTrackを提案する。
最初のフレームワークは改善の余地が残っているため、モデルの可能性をさらに活用するためのグループシーケンスポリシー最適化(GSPO)戦略を導入します。
RL微調整時のトレーニング不安定を軽減するため,勾配爆発を抑制するためのClipped Advantage Scaling(CAS)戦略を導入する。
さらに、探索と利用のバランスをとるために、構造的出力逆流と包括的検出逆流を設計し、目標知覚の完全性と精度を向上させる。
RefRTデータセットに関する大規模な実験は、提案されたRTrackフレームワークの有効性を示している。
関連論文リスト
- DRMOT: A Dataset and Framework for RGBD Referring Multi-Object Tracking [35.56361594180878]
Referring Multi-Object Tracking (RMOT)は、言語記述に基づいて特定のターゲットを追跡することを目的としている。
本稿では,RGB,Depth(D),Language(L)モダリティを融合させて3D認識トラッキングを実現するモデルを必要とする新しいタスク,RGBD Referring Multi-Object Tracking (DRMOT)を提案する。
論文 参考訳(メタデータ) (2026-02-04T15:56:16Z) - RGBX-R1: Visual Modality Chain-of-Thought Guided Reinforcement Learning for Multimodal Grounding [69.98331019544166]
MLLM(Multimodal Large Language Models)は主にRGBモダリティに基づいて事前訓練されている。
RGBX-R1はMLLMの知覚と推論能力を高めるためのフレームワークである。
論文 参考訳(メタデータ) (2026-01-31T04:13:57Z) - Collaborating Vision, Depth, and Thermal Signals for Multi-Modal Tracking: Dataset and Algorithm [103.36490810025752]
既存のマルチモーダルオブジェクト追跡アプローチは、主にRGB-DepthやRGB-Thermalのようなデュアルモーダルパラダイムに焦点を当てている。
本研究は、可視RGB、深度(D)、熱赤外(TIR)を含む3つの相補的なモードを利用する、新しいマルチモーダルトラッキングタスクを導入する。
我々はRDTTrackと呼ばれる新しいマルチモーダルトラッカーを提案する。これは、事前訓練されたRGBのみのトラッカーモデルを活用することで、ロバストトラッカーのためのトリモーダル情報を統合する。
論文 参考訳(メタデータ) (2025-09-29T13:05:15Z) - HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - KAN-SAM: Kolmogorov-Arnold Network Guided Segment Anything Model for RGB-T Salient Object Detection [35.52055285209549]
そこで本研究では,RGB-T SODタスクの視覚的基礎モデルの可能性を明らかにする。
具体的には,RGB-T SODのSegment Anything Model 2 (SAM2) を拡張した。
また、RGBデータへの依存を減らし、一般化を改善するために、相互排他的なランダムマスキング戦略を導入する。
論文 参考訳(メタデータ) (2025-04-08T10:07:02Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - Temporal Aggregation for Adaptive RGBT Tracking [14.00078027541162]
本稿では,頑健な外見モデル学習を考慮したRGBTトラッカーを提案する。
空間情報のみを含むオブジェクト追跡タスクを実装している既存のRGBTトラッカーとは異なり、この手法では時間情報も考慮されている。
論文 参考訳(メタデータ) (2022-01-22T02:31:56Z) - Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking [85.333260415532]
我々はRGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。
外観キューが信頼できない場合には、動作キューを考慮に入れ、トラッカーを堅牢にする。
最近の3つのRGB-T追跡データセットの多くの結果から、提案したトラッカーは他の最先端のアルゴリズムよりも大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2020-07-04T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。