論文の概要: Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark
- arxiv url: http://arxiv.org/abs/2409.08887v1
- Date: Fri, 13 Sep 2024 14:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 16:09:45.269800
- Title: Visual Language Tracking with Multi-modal Interaction: A Robust Benchmark
- Title(参考訳): マルチモーダルインタラクションによるビジュアル言語追跡:ロバストベンチマーク
- Authors: Xuchen Li, Shiyu Hu, Xiaokun Feng, Dailing Zhang, Meiqi Wu, Jing Zhang, Kaiqi Huang,
- Abstract要約: VLT(Visual Language Tracking)は、視覚的モダリティのみに依存する制限を緩和することで、トラッキングを強化する。
現行のVLTベンチマークでは、トラッキング中の複数ラウンドのインタラクションは考慮されていない。
本稿では,VLTタスクにマルチラウンドインタラクションを導入した新しい,堅牢なベンチマークVLT-MIを提案する。
- 参考スコア(独自算出の注目度): 23.551036494221222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Language Tracking (VLT) enhances tracking by mitigating the limitations of relying solely on the visual modality, utilizing high-level semantic information through language. This integration of the language enables more advanced human-machine interaction. The essence of interaction is cognitive alignment, which typically requires multiple information exchanges, especially in the sequential decision-making process of VLT. However, current VLT benchmarks do not account for multi-round interactions during tracking. They provide only an initial text and bounding box (bbox) in the first frame, with no further interaction as tracking progresses, deviating from the original motivation of the VLT task. To address these limitations, we propose a novel and robust benchmark, VLT-MI (Visual Language Tracking with Multi-modal Interaction), which introduces multi-round interaction into the VLT task for the first time. (1) We generate diverse, multi-granularity texts for multi-round, multi-modal interaction based on existing mainstream VLT benchmarks using DTLLM-VLT, leveraging the world knowledge of LLMs. (2) We propose a new VLT interaction paradigm that achieves multi-round interaction through text updates and object recovery. When multiple tracking failures occur, we provide the tracker with more aligned texts and corrected bboxes through interaction, thereby expanding the scope of VLT downstream tasks. (3) We conduct comparative experiments on both traditional VLT benchmarks and VLT-MI, evaluating and analyzing the accuracy and robustness of trackers under the interactive paradigm. This work offers new insights and paradigms for the VLT task, enabling a fine-grained evaluation of multi-modal trackers. We believe this approach can be extended to additional datasets in the future, supporting broader evaluations and comparisons of video-language model capabilities.
- Abstract(参考訳): 視覚言語追跡(VLT)は、視覚的モダリティのみに依存する制限を緩和し、言語による高レベルな意味情報を活用することにより、トラッキングを強化する。
この言語の統合により、より高度な人間と機械の相互作用が可能になる。
相互作用の本質は認知的アライメントであり、VLTのシーケンシャルな意思決定プロセスにおいて、通常は複数の情報交換を必要とする。
しかしながら、現在のVLTベンチマークでは、トラッキング中の複数ラウンドの相互作用は考慮されていない。
彼らは最初のフレームで最初のテキストとバウンディングボックス(bbox)しか提供せず、VLTタスクの元々のモチベーションから逸脱して、追跡の進行が進行するにつれて、それ以上のインタラクションは行わない。
これらの制約に対処するため,VLT-MI (Visual Language Tracking with Multi-modal Interaction) という新鮮で堅牢なベンチマークを提案する。
1) DTLLM-VLTを用いたマルチラウンドマルチモーダルインタラクションのための多言語テキストを生成する。
2)テキスト更新とオブジェクトリカバリによるマルチラウンドインタラクションを実現する新しいVLTインタラクションパラダイムを提案する。
複数のトラッキング障害が発生した場合、より整列したテキストと、対話を通じて修正されたbboxをトラッカーに提供し、VLTダウンストリームタスクの範囲を広げる。
(3)従来のVLTベンチマークとVLT-MIの比較実験を行い,対話的パラダイムによるトラッカーの精度とロバスト性の評価と解析を行った。
この研究は、VLTタスクの新しい洞察とパラダイムを提供し、マルチモーダルトラッカーのきめ細かい評価を可能にする。
このアプローチは将来的に追加のデータセットに拡張でき、ビデオ言語モデル機能のより広範な評価と比較をサポートすることができると考えています。
関連論文リスト
- How Texts Help? A Fine-grained Evaluation to Reveal the Role of Language in Vision-Language Tracking [23.551036494221222]
視覚言語追跡(VLT)は、テキスト情報を組み込むことで、従来の単一のオブジェクト追跡を拡張する。
現行のVLTトラッカーは、複数のベンチマークでの単一モダリティ方式に比べて性能が劣ることが多い。
VLTトラッカーの最初のきめ細かい評価フレームワークであるVLTVerseを提案する。
論文 参考訳(メタデータ) (2024-11-23T16:31:40Z) - IP-MOT: Instance Prompt Learning for Cross-Domain Multi-Object Tracking [13.977088329815933]
マルチオブジェクト追跡(MOT)は、ビデオフレーム間で複数のオブジェクトを関連付けることを目的としている。
既存のアプローチのほとんどは単一のドメイン内でトレーニングと追跡を行っており、結果としてドメイン間の一般化性が欠如している。
我々は,具体的テキスト記述なしで動作可能なMOTのエンドツーエンドトランスフォーマモデルであるIP-MOTを開発した。
論文 参考訳(メタデータ) (2024-10-30T14:24:56Z) - DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM [23.551036494221222]
我々は,VLTとSOTの5つのベンチマークに基づいて,多種多様なテキストを用いた新しい視覚言語追跡ベンチマークDTVLTを提案する。
セマンティック情報の範囲と密度を考慮して、ベンチマークで4つのテキストを提供する。
我々はDTVLTの総合的な実験分析を行い、多種多様なテキストが追跡性能に与える影響を評価する。
論文 参考訳(メタデータ) (2024-10-03T13:57:07Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM [23.551036494221222]
Visual Language Tracking (VLT)は、指定されたオブジェクトの正確な追跡のために、ビデオから自然言語記述を統合することで、単一のオブジェクト追跡(SOT)を強化する。
ほとんどのVLTベンチマークは、単一の粒度で注釈付けされており、科学的ガイダンスを提供するための一貫性のあるセマンティックフレームワークが欠如している。
DTLLM-VLTは,環境の多様性を高めるために,多粒度テキストを自動的に生成する。
論文 参考訳(メタデータ) (2024-05-20T16:01:01Z) - Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。
既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。
これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文 参考訳(メタデータ) (2023-11-14T14:02:32Z) - ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring
Instruction Tuning [24.87615615489849]
本稿では,ポイントやボックスなどの多様な参照表現を参照プロンプトとして用いて,特定の領域を参照するための正確な参照命令を提案する。
マウスクリックやドラッグアンドドロップ,描画ボックスなど,さまざまな形式の対話性をサポートする,エンドツーエンドの多モーダルな大規模言語モデルであるChatSpotを提案する。
論文 参考訳(メタデータ) (2023-07-18T17:56:06Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。