論文の概要: ATCTrack: Aligning Target-Context Cues with Dynamic Target States for Robust Vision-Language Tracking
- arxiv url: http://arxiv.org/abs/2507.19875v1
- Date: Sat, 26 Jul 2025 09:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.361914
- Title: ATCTrack: Aligning Target-Context Cues with Dynamic Target States for Robust Vision-Language Tracking
- Title(参考訳): ATCTrack:ロバストビジョンランゲージトラッキングのための動的ターゲット状態付きターゲットコンテキストキューのアライメント
- Authors: X. Feng, S. Hu, X. Li, D. Zhang, M. Wu, J. Zhang, X. Chen, K. Huang,
- Abstract要約: 視覚言語追跡は、初期フレームに提供されるテンプレートパッチと言語記述を用いて、ビデオシーケンス内の対象物を特定することを目的としている。
ロバストなトラッキングを実現するためには、ターゲットの特徴を特徴付けるだけでなく、ターゲットに関連するコンテキストの特徴を活用することが不可欠である。
動的ターゲット状態に適応したマルチモーダルキューが得られるATCTrackという新しいトラッカーを提案する。
- 参考スコア(独自算出の注目度): 0.6143225301480709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language tracking aims to locate the target object in the video sequence using a template patch and a language description provided in the initial frame. To achieve robust tracking, especially in complex long-term scenarios that reflect real-world conditions as recently highlighted by MGIT, it is essential not only to characterize the target features but also to utilize the context features related to the target. However, the visual and textual target-context cues derived from the initial prompts generally align only with the initial target state. Due to their dynamic nature, target states are constantly changing, particularly in complex long-term sequences. It is intractable for these cues to continuously guide Vision-Language Trackers (VLTs). Furthermore, for the text prompts with diverse expressions, our experiments reveal that existing VLTs struggle to discern which words pertain to the target or the context, complicating the utilization of textual cues. In this work, we present a novel tracker named ATCTrack, which can obtain multimodal cues Aligned with the dynamic target states through comprehensive Target-Context feature modeling, thereby achieving robust tracking. Specifically, (1) for the visual modality, we propose an effective temporal visual target-context modeling approach that provides the tracker with timely visual cues. (2) For the textual modality, we achieve precise target words identification solely based on textual content, and design an innovative context words calibration method to adaptively utilize auxiliary context words. (3) We conduct extensive experiments on mainstream benchmarks and ATCTrack achieves a new SOTA performance. The code and models will be released at: https://github.com/XiaokunFeng/ATCTrack.
- Abstract(参考訳): 視覚言語追跡は、初期フレームに提供されるテンプレートパッチと言語記述を用いて、ビデオシーケンス内の対象物を特定することを目的としている。
特にMGITが最近強調したような、現実の状況を反映した複雑な長期シナリオにおいて、ロバストなトラッキングを実現するためには、ターゲットの特徴を特徴付けるだけでなく、ターゲットに関連するコンテキストの特徴を活用することが不可欠である。
しかしながら、初期プロンプトから派生した視覚的およびテキスト的ターゲットコンテキストキューは、一般的に初期ターゲット状態と一致している。
動的性質のため、ターゲット状態は、特に複雑な長期配列において常に変化している。
これらの手がかりが連続的にVLT(Vision-Language Trackers)を案内するのは難しかった。
さらに,テキストの表現が多様である場合,既存のVLTでは,対象語や文脈に関連する単語の識別に苦慮し,テキストキューの利用を複雑にしていることが明らかとなった。
本研究では,ATCTrack という新しいトラッカーを提案する。このトラッカーは動的ターゲット状態に適応したマルチモーダルキューを,包括的ターゲットコンテキスト特徴モデリングにより取得し,ロバストなトラッカーを実現する。
具体的には,(1)視覚的モダリティに対して,トラッカーに時間的視覚的手がかりを提供する効果的な時間的視覚的ターゲット・コンテキストモデリング手法を提案する。
2) テキスト・モダリティにおいては,テキスト・コンテンツのみに基づく正確なターゲット語識別を実現し,補助的文脈語を適応的に活用するための革新的文脈語校正手法を設計する。
(3) 主流ベンチマークにおいて広範な実験を行い, 新たなSOTA性能を実現する。
コードとモデルは、https://github.com/XiaokunFeng/ATCTrack.comでリリースされる。
関連論文リスト
- ReasoningTrack: Chain-of-Thought Reasoning for Long-term Vision-Language Tracking [18.491855733401742]
本稿では,事前学習型視覚言語モデルQwen2.5-VLに基づく推論に基づく視覚言語追跡フレームワークReasoningTrackを提案する。
更新された言語記述を埋め込み、それらを視覚機能とともにトラッキングバックボーンネットワークに統合する。
さらに,200の動画シーケンスを含むTNLLTと呼ばれる大規模長期視覚言語追跡ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2025-08-07T10:02:07Z) - CLDTracker: A Comprehensive Language Description for Visual Tracking [17.858934583542325]
我々は、堅牢な視覚追跡のための新しい包括的言語記述フレームワークであるCLDTrackerを提案する。
トラッカーはテキストと視覚分岐からなる二重ブランチアーキテクチャを導入している。
6つの標準VOTベンチマークの実験は、CLDTrackerがSOTAのパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-29T17:39:30Z) - Dynamic Updates for Language Adaptation in Visual-Language Tracking [10.64409248365897]
本稿では,複数モーダル参照を動的に更新することで目標の最新の状態を捕捉し,一貫性を維持する視覚言語追跡フレームワークDUTrackを提案する。
DUTrackは、LaSOT、LaSOT$_rmext$、TNL2K、TB99-Lang、GOT-10K、UAV123を含む4つの主要なビジョン言語と2つのビジョンのみのトラッキングベンチマークで、最先端のパフォーマンスを新たに達成している。
論文 参考訳(メタデータ) (2025-03-09T13:47:19Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Context-Aware Integration of Language and Visual References for Natural Language Tracking [27.3884348078998]
自然言語仕様(TNL)による追跡は、初期フレームに言語的記述が与えられたビデオシーケンスにおいて、ターゲットを一貫してローカライズすることを目的としている。
本稿では,1)時間的視覚的テンプレートと言語表現の相補性を活用するためのプロンプトモジュールを併用したマルチモーダルトラッキングフレームワークを提案する。
この設計は、歴史的視覚情報と統合されたソリューションを活用することで時間的一貫性を確保し、単一のステップで予測を生成する。
論文 参考訳(メタデータ) (2024-03-29T04:58:33Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for
Vision-Language Tracking [3.416427651955299]
単一のオブジェクトトラッキングは、最初の状態から、ビデオシーケンス内の特定のターゲットを見つけることを目的としている。ビジョンランゲージ(VL)トラッキングは、有望なアプローチとして登場した。
本稿では,VL追跡のためのターゲット中心のセマンティクスを徐々に探求する新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2023-11-28T02:28:12Z) - VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search [51.9899504535878]
テキストに基づく人物検索のための視覚誘導セマンティック・グループ・ネットワーク(VGSG)を提案する。
VGSGでは、視覚関連テキストの特徴を抽出するために視覚誘導の注意が用いられる。
関係知識伝達の助けを借りて、VGKTは意味群テキスト特徴と対応する視覚特徴とを整合させることができる。
論文 参考訳(メタデータ) (2023-11-13T17:56:54Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - CiteTracker: Correlating Image and Text for Visual Tracking [114.48653709286629]
我々は、画像とテキストを接続することで、視覚的トラッキングにおけるターゲットモデリングと推論を強化するCiteTrackerを提案する。
具体的には、ターゲット画像パッチを記述テキストに変換するテキスト生成モジュールを開発する。
次に、注目に基づく相関モジュールを用いて対象記述と検索画像を関連付け、対象状態参照のための相関特徴を生成する。
論文 参考訳(メタデータ) (2023-08-22T09:53:12Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。