論文の概要: SwiTrack: Tri-State Switch for Cross-Modal Object Tracking
- arxiv url: http://arxiv.org/abs/2511.16227v1
- Date: Thu, 20 Nov 2025 10:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.582827
- Title: SwiTrack: Tri-State Switch for Cross-Modal Object Tracking
- Title(参考訳): SwiTrack: クロスモーダルオブジェクト追跡のためのトリステートスイッチ
- Authors: Boyue Xu, Ruichao Hou, Tongwei Ren, Dongming Zhou, Gangshan Wu, Jinde Cao,
- Abstract要約: クロスモーダルオブジェクトトラッキング(CMOT)は、ビデオストリームが異なるモード間で切り替える間、ターゲットの一貫性を維持する新しいタスクである。
SwiTrackは3つの特別なストリームを配置することでCMOTを再定義する新しいステートスイッチングフレームワークである。
- 参考スコア(独自算出の注目度): 74.15663758681849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal object tracking (CMOT) is an emerging task that maintains target consistency while the video stream switches between different modalities, with only one modality available in each frame, mostly focusing on RGB-Near Infrared (RGB-NIR) tracking. Existing methods typically connect parallel RGB and NIR branches to a shared backbone, which limits the comprehensive extraction of distinctive modality-specific features and fails to address the issue of object drift, especially in the presence of unreliable inputs. In this paper, we propose SwiTrack, a novel state-switching framework that redefines CMOT through the deployment of three specialized streams. Specifically, RGB frames are processed by the visual encoder, while NIR frames undergo refinement via a NIR gated adapter coupled with the visual encoder to progressively calibrate shared latent space features, thereby yielding more robust cross-modal representations. For invalid modalities, a consistency trajectory prediction module leverages spatio-temporal cues to estimate target movement, ensuring robust tracking and mitigating drift. Additionally, we incorporate dynamic template reconstruction to iteratively update template features and employ a similarity alignment loss to reinforce feature consistency. Experimental results on the latest benchmarks demonstrate that our tracker achieves state-of-the-art performance, boosting precision rate and success rate gains by 7.2\% and 4.3\%, respectively, while maintaining real-time tracking at 65 frames per second. Code and models are available at https://github.com/xuboyue1999/SwiTrack.git.
- Abstract(参考訳): クロスモーダルオブジェクトトラッキング(CMOT)は、ビデオストリームが異なるモダリティ間で切り替わっている間、ターゲットの一貫性を維持する新しいタスクであり、RGB-Near Infrared(RGB-NIR)トラッキングに重点を置いているのは、各フレームに1つのモダリティのみである。
既存の手法は通常、並列RGBおよびNIR分岐を共有バックボーンに接続するが、これは特異なモダリティ固有の特徴の包括的抽出を制限し、特に信頼性の低い入力が存在する場合、オブジェクトのドリフトの問題に対処することができない。
本稿では,3つの特殊なストリームを配置することによってCMOTを再定義する,新しい状態スイッチングフレームワークであるSwiTrackを提案する。
具体的には、RGBフレームは、ビジュアルエンコーダによって処理され、NIRフレームは、ビジュアルエンコーダと結合されたNIRゲートアダプタを介して洗練され、共有潜在空間の特徴を段階的に校正し、より堅牢なクロスモーダル表現が得られる。
不正なモダリティに対して、整合性軌道予測モジュールは時空間的キューを利用して目標運動を推定し、ロバストなトラッキングと緩和ドリフトを確保する。
さらに、動的テンプレート再構成を反復的にテンプレート機能を更新し、類似性アライメントの損失を利用して特徴の一貫性を強化する。
最新のベンチマークでの実験結果から,我々のトラッカーは,65フレーム毎のリアルタイムトラッキングを維持しつつ,それぞれ精度と成功率を7.2\%,4.3\%向上させることができた。
コードとモデルはhttps://github.com/xuboyue 1999/SwiTrack.gitで入手できる。
関連論文リスト
- Collaborating Vision, Depth, and Thermal Signals for Multi-Modal Tracking: Dataset and Algorithm [103.36490810025752]
既存のマルチモーダルオブジェクト追跡アプローチは、主にRGB-DepthやRGB-Thermalのようなデュアルモーダルパラダイムに焦点を当てている。
本研究は、可視RGB、深度(D)、熱赤外(TIR)を含む3つの相補的なモードを利用する、新しいマルチモーダルトラッキングタスクを導入する。
我々はRDTTrackと呼ばれる新しいマルチモーダルトラッカーを提案する。これは、事前訓練されたRGBのみのトラッカーモデルを活用することで、ロバストトラッカーのためのトリモーダル情報を統合する。
論文 参考訳(メタデータ) (2025-09-29T13:05:15Z) - Learning Frequency and Memory-Aware Prompts for Multi-Modal Object Tracking [74.15663758681849]
凍結したRGBトラッカーに軽量なプロンプトを注入するデュアルアダプタフレームワークであるLearning Frequency and Memory-Aware Promptsを紹介する。
周波数誘導型ビジュアルアダプタは、相補的なキューをモダリティ間で適応的に転送する。
短い、長い、永続的なメモリストアを持つマルチレベルメモリアダプタは、信頼できる時間的コンテキストを格納し、更新し、取得する。
論文 参考訳(メタデータ) (2025-06-30T15:38:26Z) - Coordinate-Aware Thermal Infrared Tracking Via Natural Language Modeling [16.873697155916997]
NLMTrackは、座標対応の熱赤外追跡モデルである。
NLMTrackは、特徴抽出と特徴融合を統一するエンコーダを適用している。
実験により、NLMTrackは複数のベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-07-11T08:06:31Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - Jointly Modeling Motion and Appearance Cues for Robust RGB-T Tracking [85.333260415532]
我々はRGBと熱(T)の両モードの融合重量マップを推定する新しい後期融合法を開発した。
外観キューが信頼できない場合には、動作キューを考慮に入れ、トラッカーを堅牢にする。
最近の3つのRGB-T追跡データセットの多くの結果から、提案したトラッカーは他の最先端のアルゴリズムよりも大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2020-07-04T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。