論文の概要: Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking
- arxiv url: http://arxiv.org/abs/2412.15691v1
- Date: Fri, 20 Dec 2024 09:10:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:54.266013
- Title: Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking
- Title(参考訳): ビデオオブジェクト追跡のためのマルチモーダル時空間パターンの爆発的生成
- Authors: Xiantao Hu, Ying Tai, Xu Zhao, Chen Zhao, Zhenyu Zhang, Jun Li, Bineng Zhong, Jian Yang,
- Abstract要約: 本研究では,STTrack というマルチモーダル空間時間追跡手法を提案する。
従来のパラダイムとは対照的に,マルチモーダル時間情報を含むトークン列を連続的に生成する時間状態生成器(TSG)を導入している。
これらの時間情報トークンは、次の時刻におけるターゲットの局所化を誘導し、ビデオフレーム間の長距離コンテキスト関係を確立し、ターゲットの時間軌道を捕捉するために使用される。
- 参考スコア(独自算出の注目度): 53.33637391723555
- License:
- Abstract: Multimodal tracking has garnered widespread attention as a result of its ability to effectively address the inherent limitations of traditional RGB tracking. However, existing multimodal trackers mainly focus on the fusion and enhancement of spatial features or merely leverage the sparse temporal relationships between video frames. These approaches do not fully exploit the temporal correlations in multimodal videos, making it difficult to capture the dynamic changes and motion information of targets in complex scenarios. To alleviate this problem, we propose a unified multimodal spatial-temporal tracking approach named STTrack. In contrast to previous paradigms that solely relied on updating reference information, we introduced a temporal state generator (TSG) that continuously generates a sequence of tokens containing multimodal temporal information. These temporal information tokens are used to guide the localization of the target in the next time state, establish long-range contextual relationships between video frames, and capture the temporal trajectory of the target. Furthermore, at the spatial level, we introduced the mamba fusion and background suppression interactive (BSI) modules. These modules establish a dual-stage mechanism for coordinating information interaction and fusion between modalities. Extensive comparisons on five benchmark datasets illustrate that STTrack achieves state-of-the-art performance across various multimodal tracking scenarios. Code is available at: https://github.com/NJU-PCALab/STTrack.
- Abstract(参考訳): マルチモーダルトラッキングは、従来のRGBトラッキングの固有の制限に効果的に対処する能力によって、広く注目を集めている。
しかし、既存のマルチモーダルトラッカーは、主に空間的特徴の融合と強化に焦点を当てている。
これらの手法は、マルチモーダルビデオにおける時間的相関を完全に活用していないため、複雑なシナリオにおけるターゲットの動的変化や運動情報を捉えることは困難である。
この問題を軽減するため,STTrack というマルチモーダル空間時空間追跡手法を提案する。
参照情報の更新のみに頼っていた従来のパラダイムとは対照的に,マルチモーダル時間情報を含むトークン列を連続的に生成する時間状態生成器(TSG)を導入している。
これらの時間情報トークンは、次の時刻におけるターゲットの局所化を誘導し、ビデオフレーム間の長距離コンテキスト関係を確立し、ターゲットの時間軌道を捕捉するために使用される。
さらに,空間レベルでは,マンバ融合とバックグラウンドレプレッション・インタラクティブ(BSI)モジュールを導入した。
これらのモジュールは、情報相互作用とモダリティ間の融合をコーディネートするための二重ステージ機構を確立する。
5つのベンチマークデータセットの大規模な比較は、STTrackが様々なマルチモーダルトラッキングシナリオで最先端のパフォーマンスを達成することを示している。
コードは、https://github.com/NJU-PCALab/STTrack.comで入手できる。
関連論文リスト
- MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking [8.696516368633143]
本研究では,マンバをベースとした視覚言語追跡モデルを提案し,その時間空間における状態空間の進化能力を利用して,ロバストなマルチモーダルトラッキングを実現する。
特に,本手法は,時間発展型ハイブリッド状態空間ブロックと選択的局所性拡張ブロックを統合し,文脈情報を取得する。
本手法は,多種多様なベンチマークにおける最先端トラッカーに対して良好に機能する。
論文 参考訳(メタデータ) (2024-11-23T05:31:58Z) - Multi-step Temporal Modeling for UAV Tracking [14.687636301587045]
MT-Track(MT-Track)は,UAV追跡の効率化を目的とした,効率的な多段階時間モデリングフレームワークである。
我々はテンプレートと検索領域の特徴間の相互作用を動的に評価するユニークな時間相関モジュールを公表する。
トラッキングシーケンスにおける時間的知識をモデル化することにより,過去のフレームと現在のフレームの相関マップを洗練するための相互変換モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-07T09:48:13Z) - Transformer RGBT Tracking with Spatio-Temporal Multimodal Tokens [13.608089918718797]
静的テンプレートからのマルチモーダルトークンと,ターゲットの外観変化を処理するマルチモーダル検索トランスフォーマーを組み合わせた,新しいTransformer-Tトラッキング手法を提案する。
我々のモジュールはトランスネットワークに挿入され,共同特徴抽出,検索テンプレートマッチング,時間的相互作用を継承する。
3つのRGBTベンチマークデータセットの実験により、提案手法は、他の最先端追跡アルゴリズムと比較して、競合性能を維持していることが示された。
論文 参考訳(メタデータ) (2024-01-03T11:16:38Z) - Temporal Adaptive RGBT Tracking with Modality Prompt [10.431364270734331]
RGBTトラッキングは、ロボティクス、処理、監視、自動運転など様々な分野で広く使われている。
既存のRGBTトラッカーは、テンプレートと検索領域の間の空間情報を十分に探索し、外観マッチング結果に基づいてターゲットを特定する。
これらのRGBTトラッカーは、時間的情報を無視したり、オンラインサンプリングやトレーニングを通じて利用したり、時間的情報を非常に限定的に利用している。
論文 参考訳(メタデータ) (2024-01-02T15:20:50Z) - SpikeMOT: Event-based Multi-Object Tracking with Sparse Motion Features [52.213656737672935]
SpikeMOTはイベントベースのマルチオブジェクトトラッカーである。
SpikeMOTはスパイクニューラルネットワークを使用して、オブジェクトに関連するイベントストリームからスパーステンポラルな特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-29T05:13:43Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - Tracking by Associating Clips [110.08925274049409]
本稿では,オブジェクト関連をクリップワイドマッチングとして扱う方法を検討する。
我々の新しい視点では、1つの長いビデオシーケンスを複数のショートクリップとみなし、そのトラックはクリップ内とクリップ間の両方で実行される。
この新しい手法の利点は2つある。まず、ビデオチャンキングによって中断フレームをバイパスできるため、エラーの蓄積や伝播の追跡に頑健である。
次に、クリップワイドマッチング中に複数のフレーム情報を集約し、現在のフレームワイドマッチングよりも高精度な長距離トラックアソシエーションを実現する。
論文 参考訳(メタデータ) (2022-12-20T10:33:17Z) - Looking Beyond Two Frames: End-to-End Multi-Object Tracking Using
Spatial and Temporal Transformers [20.806348407522083]
MO3TRはエンドツーエンドのオンラインマルチオブジェクトトラッキングフレームワークです。
オブジェクトの相互作用を長期の時間的埋め込みにエンコードする。
明示的なデータアソシエーションモジュールを必要とせずに、開始と終了を追跡する。
論文 参考訳(メタデータ) (2021-03-27T07:23:38Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。