論文の概要: Dynamic Updates for Language Adaptation in Visual-Language Tracking
- arxiv url: http://arxiv.org/abs/2503.06621v1
- Date: Sun, 09 Mar 2025 13:47:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:43.985256
- Title: Dynamic Updates for Language Adaptation in Visual-Language Tracking
- Title(参考訳): Visual-Language Trackingにおける言語適応の動的更新
- Authors: Xiaohai Li, Bineng Zhong, Qihua Liang, Zhiyi Mo, Jian Nong, Shuxiang Song,
- Abstract要約: 本稿では,複数モーダル参照を動的に更新することで目標の最新の状態を捕捉し,一貫性を維持する視覚言語追跡フレームワークDUTrackを提案する。
DUTrackは、LaSOT、LaSOT$_rmext$、TNL2K、TB99-Lang、GOT-10K、UAV123を含む4つの主要なビジョン言語と2つのビジョンのみのトラッキングベンチマークで、最先端のパフォーマンスを新たに達成している。
- 参考スコア(独自算出の注目度): 10.64409248365897
- License:
- Abstract: The consistency between the semantic information provided by the multi-modal reference and the tracked object is crucial for visual-language (VL) tracking. However, existing VL tracking frameworks rely on static multi-modal references to locate dynamic objects, which can lead to semantic discrepancies and reduce the robustness of the tracker. To address this issue, we propose a novel vision-language tracking framework, named DUTrack, which captures the latest state of the target by dynamically updating multi-modal references to maintain consistency. Specifically, we introduce a Dynamic Language Update Module, which leverages a large language model to generate dynamic language descriptions for the object based on visual features and object category information. Then, we design a Dynamic Template Capture Module, which captures the regions in the image that highly match the dynamic language descriptions. Furthermore, to ensure the efficiency of description generation, we design an update strategy that assesses changes in target displacement, scale, and other factors to decide on updates. Finally, the dynamic template and language descriptions that record the latest state of the target are used to update the multi-modal references, providing more accurate reference information for subsequent inference and enhancing the robustness of the tracker. DUTrack achieves new state-of-the-art performance on four mainstream vision-language and two vision-only tracking benchmarks, including LaSOT, LaSOT$_{\rm{ext}}$, TNL2K, OTB99-Lang, GOT-10K, and UAV123. Code and models are available at https://github.com/GXNU-ZhongLab/DUTrack.
- Abstract(参考訳): マルチモーダル参照によって提供される意味情報と追跡対象との整合性は、視覚言語(VL)追跡において重要である。
しかし、既存のVLトラッキングフレームワークは動的オブジェクトを見つけるために静的なマルチモーダル参照に依存しており、セマンティックな相違が生じ、トラッカーの堅牢性が低下する可能性がある。
この問題に対処するため,複数モーダル参照を動的に更新して目標の最新の状態を捕捉し,一貫性を維持する新しい視覚言語追跡フレームワークDUTrackを提案する。
具体的には、大きな言語モデルを利用して、視覚的特徴とオブジェクトカテゴリ情報に基づいてオブジェクトの動的言語記述を生成する動的言語更新モジュールを提案する。
そして、動的テンプレートキャプチャーモジュールを設計し、動的言語記述に高度にマッチする画像内の領域をキャプチャする。
さらに、記述生成の効率性を確保するため、ターゲットの変位、スケール、その他の要因の変化を評価して更新を決定する更新戦略を設計する。
最後に、ターゲットの最新状態を記録する動的テンプレートと言語記述を使用して、マルチモーダル参照を更新し、その後の推論のためのより正確な参照情報を提供し、トラッカーの堅牢性を高める。
DUTrackは、LaSOT, LaSOT$_{\rm{ext}}$, TNL2K, OTB99-Lang, GOT-10K, UAV123を含む、4つの主要なビジョン言語と2つの視覚のみのトラッキングベンチマークで、最先端のパフォーマンスを新たに達成している。
コードとモデルはhttps://github.com/GXNU-ZhongLab/DUTrack.comで公開されている。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model [29.702895846058265]
Vision-Language(VL)トラッカーは、様々なアプリケーションにおける汎用性を高めるために、追加の自然言語記述を活用することを提案している。
VLトラッカーは、追跡性能の点で依然としてState-of-The-Art (SoTA)ビジュアルトラッカーより劣っている。
本稿では,MLLM(Multimodal Large Language Model)における多言語知識の豊富な活用を目的としたChatTrackerを提案し,高品質な言語記述を生成する。
論文 参考訳(メタデータ) (2024-11-04T02:43:55Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - MLS-Track: Multilevel Semantic Interaction in RMOT [31.153018571396206]
本論文では,Unreal Engine 5をベースとした高品質で低コストなデータ生成手法を提案する。
我々は新しいベンチマークデータセット、Refer-UE-Cityを構築し、主に交差点監視ビデオのシーンを含む。
また、MLS-Trackと呼ばれるマルチレベル意味誘導型多目的フレームワークを提案し、モデルとテキスト間の相互作用を層単位で強化する。
論文 参考訳(メタデータ) (2024-04-18T09:31:03Z) - Tracking with Human-Intent Reasoning [64.69229729784008]
この作業では、新しいトラッキングタスクであるインストラクショントラッキングを提案している。
ビデオフレーム内で自動的にトラッキングを実行するようにトラッカーに要求する暗黙の追跡命令を提供する。
TrackGPTは複雑な推論ベースの追跡を行うことができる。
論文 参考訳(メタデータ) (2023-12-29T03:22:18Z) - CiteTracker: Correlating Image and Text for Visual Tracking [114.48653709286629]
我々は、画像とテキストを接続することで、視覚的トラッキングにおけるターゲットモデリングと推論を強化するCiteTrackerを提案する。
具体的には、ターゲット画像パッチを記述テキストに変換するテキスト生成モジュールを開発する。
次に、注目に基づく相関モジュールを用いて対象記述と検索画像を関連付け、対象状態参照のための相関特徴を生成する。
論文 参考訳(メタデータ) (2023-08-22T09:53:12Z) - Type-to-Track: Retrieve Any Object via Prompt-based Tracking [34.859061177766016]
本稿では,Type-to-Trackと呼ばれるマルチオブジェクト追跡のための新しいパラダイムを提案する。
Type-to-Trackでは、自然言語の記述をタイプすることで、ビデオ内のオブジェクトを追跡することができる。
我々は、GroOTと呼ばれる、そのグラウンドド多重オブジェクト追跡タスクのための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-05-22T21:25:27Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Generalizing Multiple Object Tracking to Unseen Domains by Introducing
Natural Language Representation [33.03600813115465]
本稿では,領域一般化能力を高めるために,視覚的MOTモデルに自然言語表現を導入することを提案する。
この問題に対処するために、視覚的コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。
VLMは生成した視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトとを結合して、インスタンスレベルの擬似テキスト記述を取得する。
また,MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2022-12-03T07:57:31Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。