論文の概要: How Texts Help? A Fine-grained Evaluation to Reveal the Role of Language in Vision-Language Tracking
- arxiv url: http://arxiv.org/abs/2411.15600v1
- Date: Sat, 23 Nov 2024 16:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:38.590180
- Title: How Texts Help? A Fine-grained Evaluation to Reveal the Role of Language in Vision-Language Tracking
- Title(参考訳): テキストはどのように役立つか : 視覚言語追跡における言語の役割を明らかにするためのきめ細かい評価
- Authors: Xuchen Li, Shiyu Hu, Xiaokun Feng, Dailing Zhang, Meiqi Wu, Jing Zhang, Kaiqi Huang,
- Abstract要約: 視覚言語追跡(VLT)は、テキスト情報を組み込むことで、従来の単一のオブジェクト追跡を拡張する。
現行のVLTトラッカーは、複数のベンチマークでの単一モダリティ方式に比べて性能が劣ることが多い。
VLTトラッカーの最初のきめ細かい評価フレームワークであるVLTVerseを提案する。
- 参考スコア(独自算出の注目度): 23.551036494221222
- License:
- Abstract: Vision-language tracking (VLT) extends traditional single object tracking by incorporating textual information, providing semantic guidance to enhance tracking performance under challenging conditions like fast motion and deformations. However, current VLT trackers often underperform compared to single-modality methods on multiple benchmarks, with semantic information sometimes becoming a "distraction." To address this, we propose VLTVerse, the first fine-grained evaluation framework for VLT trackers that comprehensively considers multiple challenge factors and diverse semantic information, hoping to reveal the role of language in VLT. Our contributions include: (1) VLTVerse introduces 10 sequence-level challenge labels and 6 types of multi-granularity semantic information, creating a flexible and multi-dimensional evaluation space for VLT; (2) leveraging 60 subspaces formed by combinations of challenge factors and semantic types, we conduct systematic fine-grained evaluations of three mainstream SOTA VLT trackers, uncovering their performance bottlenecks across complex scenarios and offering a novel perspective on VLT evaluation; (3) through decoupled analysis of experimental results, we examine the impact of various semantic types on specific challenge factors in relation to different algorithms, providing essential guidance for enhancing VLT across data, evaluation, and algorithmic dimensions. The VLTVerse, toolkit, and results will be available at \url{http://metaverse.aitestunion.com}.
- Abstract(参考訳): 視覚言語追跡(VLT)は、テキスト情報を組み込むことで従来の単一物体追跡を拡張し、高速な動きや変形といった困難な条件下でのトラッキング性能を高める意味的なガイダンスを提供する。
しかしながら、現在のVLTトラッカーは、複数のベンチマークでの単一のモダリティ手法に比べて性能が劣ることが多く、セマンティック情報は時々「引き離し」となる。
そこで本研究では,VLTにおける言語の役割を明らかにするために,複数の課題要因と多種多様な意味情報を包括的に検討した,VLTトラッカーの最初のきめ細かい評価フレームワークであるVLTVerseを提案する。
VLTVerseは10のシーケンスレベルのチャレンジラベルと6種類のマルチグラニュラリティセマンティック情報を導入し、VLTの柔軟な多次元評価空間を作成し、(2)チャレンジファクタとセマンティックタイプの組み合わせによって形成された60のサブスペースを利用して、3つのメインストリームSOTA VLTトラッカーの体系的きめ細かな評価を行い、複雑なシナリオにおけるパフォーマンスボトルネックを明らかにし、VLT評価に関する新たな視点を提供する。
VLTVerse、ツールキット、および結果は、 \url{http://metaverse.aitestunion.com}で入手できる。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM [23.551036494221222]
我々は,VLTとSOTの5つのベンチマークに基づいて,多種多様なテキストを用いた新しい視覚言語追跡ベンチマークDTVLTを提案する。
セマンティック情報の範囲と密度を考慮して、ベンチマークで4つのテキストを提供する。
我々はDTVLTの総合的な実験分析を行い、多種多様なテキストが追跡性能に与える影響を評価する。
論文 参考訳(メタデータ) (2024-10-03T13:57:07Z) - Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark [23.551036494221222]
VLT(Visual Language Tracking)は、視覚的モダリティのみに依存する制限を緩和することで、トラッキングを強化する。
現行のVLTベンチマークでは、トラッキング中の複数ラウンドのインタラクションは考慮されていない。
本稿では,VLTタスクにマルチラウンドインタラクションを導入した新しい,堅牢なベンチマークVLT-MIを提案する。
論文 参考訳(メタデータ) (2024-09-13T14:54:37Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM [23.551036494221222]
Visual Language Tracking (VLT)は、指定されたオブジェクトの正確な追跡のために、ビデオから自然言語記述を統合することで、単一のオブジェクト追跡(SOT)を強化する。
ほとんどのVLTベンチマークは、単一の粒度で注釈付けされており、科学的ガイダンスを提供するための一貫性のあるセマンティックフレームワークが欠如している。
DTLLM-VLTは,環境の多様性を高めるために,多粒度テキストを自動的に生成する。
論文 参考訳(メタデータ) (2024-05-20T16:01:01Z) - Efficient Vision-and-Language Pre-training with Text-Relevant Image Patch Selection [66.72992463712299]
Vision Transformers (ViT) は、大規模なVisionとLanguage Pre-trainingモデルで人気が高まっている。
これまでの研究では、ViTsの有効性が実証されているが、長い視覚的シーケンスによって引き起こされる計算の非効率性に苦慮している。
TRIPSを導入し、視覚バックボーン内のテキスト誘導パッチ選択層を用いて視覚列を縮小する。
実験の結果, TRIPSは40%の高速化を実現し, 下流タスクの競争力や優れた性能を維持していることがわかった。
論文 参考訳(メタデータ) (2024-01-11T14:31:30Z) - Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。
既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。
これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文 参考訳(メタデータ) (2023-11-14T14:02:32Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - A Survey on Temporal Sentence Grounding in Videos [69.13365006222251]
ビデオ(TSGV)における時間的文グラウンドングは、与えられた文クエリに関する未編集ビデオから1つのターゲットセグメントをローカライズすることを目的としている。
我々の知る限りでは、これは時間的文接地に関する最初の体系的な調査である。
論文 参考訳(メタデータ) (2021-09-16T15:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。