論文の概要: Temporal Adaptive RGBT Tracking with Modality Prompt
- arxiv url: http://arxiv.org/abs/2401.01244v1
- Date: Tue, 2 Jan 2024 15:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 13:35:09.816633
- Title: Temporal Adaptive RGBT Tracking with Modality Prompt
- Title(参考訳): モーダリティプロンプトを用いた時間適応RGBT追跡
- Authors: Hongyu Wang, Xiaotao Liu, Yifan Li, Meng Sun, Dian Yuan, Jing Liu
- Abstract要約: RGBTトラッキングは、ロボティクス、処理、監視、自動運転など様々な分野で広く使われている。
既存のRGBTトラッカーは、テンプレートと検索領域の間の空間情報を十分に探索し、外観マッチング結果に基づいてターゲットを特定する。
これらのRGBTトラッカーは、時間的情報を無視したり、オンラインサンプリングやトレーニングを通じて利用したり、時間的情報を非常に限定的に利用している。
- 参考スコア(独自算出の注目度): 10.431364270734331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGBT tracking has been widely used in various fields such as robotics,
surveillance processing, and autonomous driving. Existing RGBT trackers fully
explore the spatial information between the template and the search region and
locate the target based on the appearance matching results. However, these RGBT
trackers have very limited exploitation of temporal information, either
ignoring temporal information or exploiting it through online sampling and
training. The former struggles to cope with the object state changes, while the
latter neglects the correlation between spatial and temporal information. To
alleviate these limitations, we propose a novel Temporal Adaptive RGBT Tracking
framework, named as TATrack. TATrack has a spatio-temporal two-stream structure
and captures temporal information by an online updated template, where the
two-stream structure refers to the multi-modal feature extraction and
cross-modal interaction for the initial template and the online update template
respectively. TATrack contributes to comprehensively exploit spatio-temporal
information and multi-modal information for target localization. In addition,
we design a spatio-temporal interaction (STI) mechanism that bridges two
branches and enables cross-modal interaction to span longer time scales.
Extensive experiments on three popular RGBT tracking benchmarks show that our
method achieves state-of-the-art performance, while running at real-time speed.
- Abstract(参考訳): RGBTトラッキングは、ロボット工学、監視処理、自動運転など様々な分野で広く使われている。
既存のRGBTトラッカーは、テンプレートと検索領域の間の空間情報を十分に探索し、外観マッチング結果に基づいてターゲットを特定する。
しかし、これらのRGBTトラッカーは、時間的情報を無視したり、オンラインサンプリングやトレーニングを通じて利用したり、時間的情報を非常に限定的に利用している。
前者は物体の状態の変化に対処するのに苦労し、後者は空間情報と時間情報の相関を無視する。
これらの制約を緩和するために,TATrack という名称のテンポラル適応 RGBT トラッキングフレームワークを提案する。
TATrackは時空間的2ストリーム構造を持ち、オンライン更新テンプレートによって時間情報をキャプチャする。この2ストリーム構造は、初期テンプレートとオンライン更新テンプレートのマルチモーダル特徴抽出と相互モーダル相互作用をそれぞれ参照する。
TATrackは、ターゲットローカライゼーションのための時空間情報とマルチモーダル情報を包括的に活用する。
さらに、2つの分岐をブリッジし、より長い時間スケールにまたがるクロスモーダル相互作用を可能にする時空間相互作用(STI)機構を設計する。
3つのRGBT追跡ベンチマークの大規模な実験により,本手法はリアルタイムに動作しながら最先端の性能を実現する。
関連論文リスト
- Autoregressive Queries for Adaptive Tracking with Spatio-TemporalTransformers [55.46413719810273]
リッチ時間情報は、視覚追跡における複雑なターゲットの出現に不可欠である。
提案手法は,6つの一般的な追跡ベンチマークにおいてトラッカーの性能を向上させる。
論文 参考訳(メタデータ) (2024-03-15T02:39:26Z) - Multi-step Temporal Modeling for UAV Tracking [14.687636301587045]
MT-Track(MT-Track)は,UAV追跡の効率化を目的とした,効率的な多段階時間モデリングフレームワークである。
我々はテンプレートと検索領域の特徴間の相互作用を動的に評価するユニークな時間相関モジュールを公表する。
トラッキングシーケンスにおける時間的知識をモデル化することにより,過去のフレームと現在のフレームの相関マップを洗練するための相互変換モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-07T09:48:13Z) - Transformer RGBT Tracking with Spatio-Temporal Multimodal Tokens [13.608089918718797]
静的テンプレートからのマルチモーダルトークンと,ターゲットの外観変化を処理するマルチモーダル検索トランスフォーマーを組み合わせた,新しいTransformer-Tトラッキング手法を提案する。
我々のモジュールはトランスネットワークに挿入され,共同特徴抽出,検索テンプレートマッチング,時間的相互作用を継承する。
3つのRGBTベンチマークデータセットの実験により、提案手法は、他の最先端追跡アルゴリズムと比較して、競合性能を維持していることが示された。
論文 参考訳(メタデータ) (2024-01-03T11:16:38Z) - Towards Real-World Visual Tracking with Temporal Contexts [64.7981374129495]
時間的文脈を効率的に活用できる2段階フレームワーク(TCTrack)を提案する。
これに基づいて、現実世界の視覚的トラッキング、すなわちTCTrack++のためのより強力なバージョンを提案する。
特徴抽出のために,空間的特徴を高めるために注意に基づく時間適応的畳み込みを提案する。
類似性マップの改良のために,時間的知識を効率的に符号化する適応型時間的変換器を導入する。
論文 参考訳(メタデータ) (2023-08-20T17:59:40Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - Automated Dilated Spatio-Temporal Synchronous Graph Modeling for Traffic
Prediction [1.6449390849183363]
本稿では,トラフィック予測のための自動拡張時間同期グラフネットワーク予測であるAuto-DSTSを提案する。
具体的には,短期および長期の相関関係を捉えるための自動拡張時間時間グラフ (Auto-DSTS) モジュールを提案する。
我々のモデルは最先端の手法と比較して約10%改善できる。
論文 参考訳(メタデータ) (2022-07-22T00:50:39Z) - Temporal Aggregation for Adaptive RGBT Tracking [14.00078027541162]
本稿では,頑健な外見モデル学習を考慮したRGBTトラッカーを提案する。
空間情報のみを含むオブジェクト追跡タスクを実装している既存のRGBTトラッカーとは異なり、この手法では時間情報も考慮されている。
論文 参考訳(メタデータ) (2022-01-22T02:31:56Z) - Continuity-Discrimination Convolutional Neural Network for Visual Object
Tracking [150.51667609413312]
本稿では,視覚オブジェクト追跡のためのContinuity-Discrimination Convolutional Neural Network (CD-CNN) という新しいモデルを提案する。
この問題に対処するため、cd-cnnは時間的遅れの概念に基づいた時間的外観連続性をモデル化する。
不正確なターゲットの定位とドリフトを緩和するために,新しい概念 object-centroid を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:35:03Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。