論文の概要: VPTracker: Global Vision-Language Tracking via Visual Prompt and MLLM
- arxiv url: http://arxiv.org/abs/2512.22799v1
- Date: Sun, 28 Dec 2025 06:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.230026
- Title: VPTracker: Global Vision-Language Tracking via Visual Prompt and MLLM
- Title(参考訳): VPTracker: Visual PromptとMLLMによるグローバルビジョンランゲージトラッキング
- Authors: Jingchao Wang, Kaiwen Zhou, Zhijian Wu, Kunhua Ji, Dingjiang Huang, Yefeng Zheng,
- Abstract要約: Vision-Language Trackingは、ビジュアルテンプレートと言語記述によって記述されたオブジェクトを継続的にローカライズすることを目的としている。
しかし、既存の手法は通常、局所的な探索に限られており、視点の変化の下で失敗する傾向がある。
我々は,多モーダル大言語モデル(VPTracker)に基づく最初のグローバルな追跡フレームワークを導入する。
- 参考スコア(独自算出の注目度): 45.56517073754981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Tracking aims to continuously localize objects described by a visual template and a language description. Existing methods, however, are typically limited to local search, making them prone to failures under viewpoint changes, occlusions, and rapid target movements. In this work, we introduce the first global tracking framework based on Multimodal Large Language Models (VPTracker), exploiting their powerful semantic reasoning to locate targets across the entire image space. While global search improves robustness and reduces drift, it also introduces distractions from visually or semantically similar objects. To address this, we propose a location-aware visual prompting mechanism that incorporates spatial priors into the MLLM. Specifically, we construct a region-level prompt based on the target's previous location, enabling the model to prioritize region-level recognition and resort to global inference only when necessary. This design retains the advantages of global tracking while effectively suppressing interference from distracting visual content. Extensive experiments show that our approach significantly enhances tracking stability and target disambiguation under challenging scenarios, opening a new avenue for integrating MLLMs into visual tracking. Code is available at https://github.com/jcwang0602/VPTracker.
- Abstract(参考訳): Vision-Language Trackingは、ビジュアルテンプレートと言語記述によって記述されたオブジェクトを継続的にローカライズすることを目的としている。
しかし、既存の手法は通常、局所的な探索に限られており、視点の変化や閉塞、急激な目標運動の際の故障に悩まされる。
本研究では,多モーダル大言語モデル(VPTracker)に基づく最初のグローバルな追跡フレームワークを紹介する。
グローバル検索はロバスト性を改善し、ドリフトを減らす一方で、視覚的にも意味的にも類似したオブジェクトから邪魔される。
そこで本稿では,空間的先行をMLLMに組み込んだ位置認識型視覚刺激機構を提案する。
具体的には、ターゲットの以前の位置に基づいて、領域レベルのプロンプトを構築し、必要に応じて、領域レベルの認識を優先順位付けし、グローバルな推論に頼ることができる。
この設計は、視覚的コンテンツへの干渉を効果的に抑制しつつ、グローバルなトラッキングの利点を保っている。
広汎な実験により,本手法は難解なシナリオ下でのトラッキングの安定性と目標の曖昧さを著しく向上させ,MLLMを視覚的トラッキングに統合するための新たな道を開いた。
コードはhttps://github.com/jcwang0602/VPTrackerで入手できる。
関連論文リスト
- ATCTrack: Aligning Target-Context Cues with Dynamic Target States for Robust Vision-Language Tracking [0.6143225301480709]
視覚言語追跡は、初期フレームに提供されるテンプレートパッチと言語記述を用いて、ビデオシーケンス内の対象物を特定することを目的としている。
ロバストなトラッキングを実現するためには、ターゲットの特徴を特徴付けるだけでなく、ターゲットに関連するコンテキストの特徴を活用することが不可欠である。
動的ターゲット状態に適応したマルチモーダルキューが得られるATCTrackという新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2025-07-26T09:05:12Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model [29.702895846058265]
Vision-Language(VL)トラッカーは、様々なアプリケーションにおける汎用性を高めるために、追加の自然言語記述を活用することを提案している。
VLトラッカーは、追跡性能の点で依然としてState-of-The-Art (SoTA)ビジュアルトラッカーより劣っている。
本稿では,MLLM(Multimodal Large Language Model)における多言語知識の豊富な活用を目的としたChatTrackerを提案し,高品質な言語記述を生成する。
論文 参考訳(メタデータ) (2024-11-04T02:43:55Z) - VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for
Vision-Language Tracking [3.416427651955299]
単一のオブジェクトトラッキングは、最初の状態から、ビデオシーケンス内の特定のターゲットを見つけることを目的としている。ビジョンランゲージ(VL)トラッキングは、有望なアプローチとして登場した。
本稿では,VL追跡のためのターゲット中心のセマンティクスを徐々に探求する新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2023-11-28T02:28:12Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Tracking by Joint Local and Global Search: A Target-aware Attention
based Approach [63.50045332644818]
本研究では、ロバストな追跡のための局所的・グローバルな共同探索を行うための新たな目標認識型アテンション機構(TANet)を提案する。
具体的には、ターゲットオブジェクトパッチと連続ビデオフレームの特徴を抽出し、それらをデコーダネットワークに追従して、ターゲットを意識したグローバルアテンションマップを生成する。
追跡手順において、ロバストな追跡のための候補探索領域を探索することにより、ターゲット認識の注意を複数のトラッカーと統合する。
論文 参考訳(メタデータ) (2021-06-09T06:54:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。