論文の概要: Enhancing Vision-Language Tracking by Effectively Converting Textual Cues into Visual Cues
- arxiv url: http://arxiv.org/abs/2412.19648v1
- Date: Fri, 27 Dec 2024 13:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:25:04.966788
- Title: Enhancing Vision-Language Tracking by Effectively Converting Textual Cues into Visual Cues
- Title(参考訳): テキストキューを視覚キューに変換することでビジョンランゲージ追跡を効果的に向上する
- Authors: X. Feng, D. Zhang, S. Hu, X. Li, M. Wu, J. Zhang, X. Chen, K. Huang,
- Abstract要約: Vision-Language Trackingは、ビジュアルテンプレートと言語記述を使用して、ターゲットをビデオシーケンスにローカライズすることを目的としている。
現在のデータセットはテキストよりもはるかに多くの画像データを含んでいるため、2つのモードを効果的に調整するVLTメソッドの能力は制限されている。
基礎地盤モデルの強力なテキスト画像アライメント機能を利用するCTVLTという新しいプラグイン・アンド・プレイ手法を提案する。
- 参考スコア(独自算出の注目度): 0.6143225301480709
- License:
- Abstract: Vision-Language Tracking (VLT) aims to localize a target in video sequences using a visual template and language description. While textual cues enhance tracking potential, current datasets typically contain much more image data than text, limiting the ability of VLT methods to align the two modalities effectively. To address this imbalance, we propose a novel plug-and-play method named CTVLT that leverages the strong text-image alignment capabilities of foundation grounding models. CTVLT converts textual cues into interpretable visual heatmaps, which are easier for trackers to process. Specifically, we design a textual cue mapping module that transforms textual cues into target distribution heatmaps, visually representing the location described by the text. Additionally, the heatmap guidance module fuses these heatmaps with the search image to guide tracking more effectively. Extensive experiments on mainstream benchmarks demonstrate the effectiveness of our approach, achieving state-of-the-art performance and validating the utility of our method for enhanced VLT.
- Abstract(参考訳): Vision-Language Tracking (VLT)は、視覚テンプレートと言語記述を用いて、ターゲットをビデオシーケンスにローカライズすることを目的としている。
テキストキューはトラッキングの可能性を高めるが、現在のデータセットはテキストよりもはるかに多くの画像データを含んでいるため、2つのモードを効果的に調整するVLTメソッドの能力は制限される。
この不均衡に対処するために,基礎地盤モデルの強力なテキスト画像アライメント機能を利用するCTVLTという新しいプラグアンドプレイ手法を提案する。
CTVLTはテキストキューを解釈可能なビジュアルヒートマップに変換する。
具体的には、テキストキューをターゲット分布のヒートマップに変換するテキストキューマッピングモジュールを設計し、テキストが記述した位置を視覚的に表現する。
さらに、ヒートマップ誘導モジュールは、これらのヒートマップを検索画像と融合させ、トラッキングをより効果的にガイドする。
本手法の有効性を実証し,提案手法の有効性を検証し,提案手法の有効性を検証した。
関連論文リスト
- AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model [29.702895846058265]
Vision-Language(VL)トラッカーは、様々なアプリケーションにおける汎用性を高めるために、追加の自然言語記述を活用することを提案している。
VLトラッカーは、追跡性能の点で依然としてState-of-The-Art (SoTA)ビジュアルトラッカーより劣っている。
本稿では,MLLM(Multimodal Large Language Model)における多言語知識の豊富な活用を目的としたChatTrackerを提案し,高品質な言語記述を生成する。
論文 参考訳(メタデータ) (2024-11-04T02:43:55Z) - Attention Prompting on Image for Large Vision-Language Models [63.794304207664176]
本稿では,画像上の注意喚起という新しいプロンプト手法を提案する。
我々は,CLIPのような補助モデルを用いて,テキストクエリに依存する入力画像に対するアテンションヒートマップを生成する。
各種バイソン言語ベンチマークの実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-09-25T17:59:13Z) - LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - GoMatching: A Simple Baseline for Video Text Spotting via Long and Short Term Matching [77.0306273129475]
ビデオテキストスポッティングは、トラッキングを含むことで、さらなる課題を提示する。
GoMatchingは、強力な認識性能を維持しながら、トラッキングのトレーニングに重点を置いている。
GoMatchingは、ICDAR15ビデオ、DSText、BOVTextに新しいレコードを提供し、ArTVideoと呼ばれる任意の形のテキストを用いた新しいテストを提案しました。
論文 参考訳(メタデータ) (2024-01-13T13:59:15Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - CiteTracker: Correlating Image and Text for Visual Tracking [114.48653709286629]
我々は、画像とテキストを接続することで、視覚的トラッキングにおけるターゲットモデリングと推論を強化するCiteTrackerを提案する。
具体的には、ターゲット画像パッチを記述テキストに変換するテキスト生成モジュールを開発する。
次に、注目に基づく相関モジュールを用いて対象記述と検索画像を関連付け、対象状態参照のための相関特徴を生成する。
論文 参考訳(メタデータ) (2023-08-22T09:53:12Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts [2.0434814235659555]
コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。
VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの強化を提案する。
少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
論文 参考訳(メタデータ) (2021-12-04T18:34:24Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。