論文の概要: CLDTracker: A Comprehensive Language Description for Visual Tracking
- arxiv url: http://arxiv.org/abs/2505.23704v1
- Date: Thu, 29 May 2025 17:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.04586
- Title: CLDTracker: A Comprehensive Language Description for Visual Tracking
- Title(参考訳): CLDTracker:ビジュアルトラッキングのための包括的な言語記述
- Authors: Mohamad Alansari, Sajid Javed, Iyyakutti Iyappan Ganapathi, Sara Alansari, Muzammal Naseer,
- Abstract要約: 我々は、堅牢な視覚追跡のための新しい包括的言語記述フレームワークであるCLDTrackerを提案する。
トラッカーはテキストと視覚分岐からなる二重ブランチアーキテクチャを導入している。
6つの標準VOTベンチマークの実験は、CLDTrackerがSOTAのパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 17.858934583542325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: VOT remains a fundamental yet challenging task in computer vision due to dynamic appearance changes, occlusions, and background clutter. Traditional trackers, relying primarily on visual cues, often struggle in such complex scenarios. Recent advancements in VLMs have shown promise in semantic understanding for tasks like open-vocabulary detection and image captioning, suggesting their potential for VOT. However, the direct application of VLMs to VOT is hindered by critical limitations: the absence of a rich and comprehensive textual representation that semantically captures the target object's nuances, limiting the effective use of language information; inefficient fusion mechanisms that fail to optimally integrate visual and textual features, preventing a holistic understanding of the target; and a lack of temporal modeling of the target's evolving appearance in the language domain, leading to a disconnect between the initial description and the object's subsequent visual changes. To bridge these gaps and unlock the full potential of VLMs for VOT, we propose CLDTracker, a novel Comprehensive Language Description framework for robust visual Tracking. Our tracker introduces a dual-branch architecture consisting of a textual and a visual branch. In the textual branch, we construct a rich bag of textual descriptions derived by harnessing the powerful VLMs such as CLIP and GPT-4V, enriched with semantic and contextual cues to address the lack of rich textual representation. Experiments on six standard VOT benchmarks demonstrate that CLDTracker achieves SOTA performance, validating the effectiveness of leveraging robust and temporally-adaptive vision-language representations for tracking. Code and models are publicly available at: https://github.com/HamadYA/CLDTracker
- Abstract(参考訳): VOTは、動的外見の変化、閉塞、背景の乱れなどにより、コンピュータビジョンにおける基本的な課題であり続けている。
従来のトラッカーは主に視覚的な手がかりに依存しており、このような複雑なシナリオで苦労することが多い。
VLMの最近の進歩は、オープン語彙の検出や画像キャプションといったタスクのセマンティック理解の可能性を示しており、これらがVOTの可能性を示している。
しかしながら、VLMのVOTへの直接適用は、ターゲットのニュアンスを意味的にキャプチャするリッチで包括的なテキスト表現の欠如、言語情報の有効利用を制限すること、視覚的特徴とテキスト的特徴を最適に統合できない非効率な融合機構、ターゲットの全体的理解の妨げ、言語領域におけるターゲットの進化する外観の時間的モデリングの欠如、そして初期記述とその後のオブジェクトの視覚的変化の切断など、重大な制限によって妨げられている。
これらのギャップを埋め、VLMの可能性を最大限に活用するために、我々はCLDTrackerを提案し、これは堅牢なビジュアルトラッキングのための新しい包括的言語記述フレームワークである。
トラッカーはテキストと視覚分岐からなる二重ブランチアーキテクチャを導入している。
テキスト分岐では、CLIPやGPT-4Vといった強力なVLMを利用して、テキスト表現の欠如に対処するために、意味的および文脈的手がかりを充実させたリッチなテキスト記述の袋を構築する。
6つの標準VOTベンチマークの実験では、CLDTrackerがSOTAのパフォーマンスを達成し、追跡に堅牢で時間適応的な視覚言語表現を活用する効果を検証している。
コードとモデルは、https://github.com/HamadYA/CLDTrackerで公開されている。
関連論文リスト
- OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model [29.702895846058265]
Vision-Language(VL)トラッカーは、様々なアプリケーションにおける汎用性を高めるために、追加の自然言語記述を活用することを提案している。
VLトラッカーは、追跡性能の点で依然としてState-of-The-Art (SoTA)ビジュアルトラッカーより劣っている。
本稿では,MLLM(Multimodal Large Language Model)における多言語知識の豊富な活用を目的としたChatTrackerを提案し,高品質な言語記述を生成する。
論文 参考訳(メタデータ) (2024-11-04T02:43:55Z) - Multi-Granularity Language-Guided Training for Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Generalizing Multiple Object Tracking to Unseen Domains by Introducing
Natural Language Representation [33.03600813115465]
本稿では,領域一般化能力を高めるために,視覚的MOTモデルに自然言語表現を導入することを提案する。
この問題に対処するために、視覚的コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。
VLMは生成した視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトとを結合して、インスタンスレベルの擬似テキスト記述を取得する。
また,MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2022-12-03T07:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。