論文の概要: Multi-Granularity Language-Guided Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2406.04844v1
- Date: Fri, 7 Jun 2024 11:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:20:58.755521
- Title: Multi-Granularity Language-Guided Multi-Object Tracking
- Title(参考訳): 多言語言語誘導多目的追跡
- Authors: Yuhao Li, Muzammal Naseer, Jiale Cao, Yu Zhu, Jinqiu Sun, Yanning Zhang, Fahad Shahbaz Khan,
- Abstract要約: 本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
- 参考スコア(独自算出の注目度): 95.91263758294154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing multi-object tracking methods typically learn visual tracking features via maximizing dis-similarities of different instances and minimizing similarities of the same instance. While such a feature learning scheme achieves promising performance, learning discriminative features solely based on visual information is challenging especially in case of environmental interference such as occlusion, blur and domain variance. In this work, we argue that multi-modal language-driven features provide complementary information to classical visual features, thereby aiding in improving the robustness to such environmental interference. To this end, we propose a new multi-object tracking framework, named LG-MOT, that explicitly leverages language information at different levels of granularity (scene-and instance-level) and combines it with standard visual features to obtain discriminative representations. To develop LG-MOT, we annotate existing MOT datasets with scene-and instance-level language descriptions. We then encode both instance-and scene-level language information into high-dimensional embeddings, which are utilized to guide the visual features during training. At inference, our LG-MOT uses the standard visual features without relying on annotated language descriptions. Extensive experiments on three benchmarks, MOT17, DanceTrack and SportsMOT, reveal the merits of the proposed contributions leading to state-of-the-art performance. On the DanceTrack test set, our LG-MOT achieves an absolute gain of 2.2\% in terms of target object association (IDF1 score), compared to the baseline using only visual features. Further, our LG-MOT exhibits strong cross-domain generalizability. The dataset and code will be available at ~\url{https://github.com/WesLee88524/LG-MOT}.
- Abstract(参考訳): 多くの既存のマルチオブジェクト追跡手法は、通常、異なるインスタンスの相似性を最大化し、同じインスタンスの類似性を最小化することで、視覚的トラッキング機能を学ぶ。
このような特徴学習方式は有望な性能を達成する一方で、視覚情報のみに基づく識別的特徴の学習は、特に閉塞、ぼかし、ドメインの分散といった環境干渉の場合において困難である。
本研究では,マルチモーダル言語による特徴が,従来の視覚的特徴と相補的な情報を提供し,環境干渉に対する堅牢性の向上を支援することを論じる。
この目的のために,LG-MOTと呼ばれる新しい多目的追跡フレームワークを提案する。これは,言語情報を粒度の異なるレベル(シーンおよびインスタンスレベル)で明示的に活用し,標準的な視覚的特徴と組み合わせて識別的表現を得る。
LG-MOTを開発するために,既存のMOTデータセットにシーンレベルの言語記述とインスタンスレベルの言語記述をアノテートする。
次に、実例レベルとシーンレベルの言語情報を高次元埋め込みにエンコードし、トレーニング中の視覚的特徴をガイドする。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
MOT17、DanceTrack、SportsMOTの3つのベンチマークに関する大規模な実験は、提案されたコントリビューションのメリットが最先端のパフォーマンスにつながることを示した。
DanceTrackテストセットでは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、LG-MOTは2.2\%の絶対ゲインを達成する。
さらに、LG-MOTは、強いクロスドメインの一般化性を示す。
データセットとコードは ~\url{https://github.com/WesLee88524/LG-MOT} で利用可能である。
関連論文リスト
- ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model [29.702895846058265]
Vision-Language(VL)トラッカーは、様々なアプリケーションにおける汎用性を高めるために、追加の自然言語記述を活用することを提案している。
VLトラッカーは、追跡性能の点で依然としてState-of-The-Art (SoTA)ビジュアルトラッカーより劣っている。
本稿では,MLLM(Multimodal Large Language Model)における多言語知識の豊富な活用を目的としたChatTrackerを提案し,高品質な言語記述を生成する。
論文 参考訳(メタデータ) (2024-11-04T02:43:55Z) - IP-MOT: Instance Prompt Learning for Cross-Domain Multi-Object Tracking [13.977088329815933]
マルチオブジェクト追跡(MOT)は、ビデオフレーム間で複数のオブジェクトを関連付けることを目的としている。
既存のアプローチのほとんどは単一のドメイン内でトレーニングと追跡を行っており、結果としてドメイン間の一般化性が欠如している。
我々は,具体的テキスト記述なしで動作可能なMOTのエンドツーエンドトランスフォーマモデルであるIP-MOTを開発した。
論文 参考訳(メタデータ) (2024-10-30T14:24:56Z) - DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM [23.551036494221222]
Visual Language Tracking (VLT)は、指定されたオブジェクトの正確な追跡のために、ビデオから自然言語記述を統合することで、単一のオブジェクト追跡(SOT)を強化する。
ほとんどのVLTベンチマークは、単一の粒度で注釈付けされており、科学的ガイダンスを提供するための一貫性のあるセマンティックフレームワークが欠如している。
DTLLM-VLTは,環境の多様性を高めるために,多粒度テキストを自動的に生成する。
論文 参考訳(メタデータ) (2024-05-20T16:01:01Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Unifying Visual and Vision-Language Tracking via Contrastive Learning [34.49865598433915]
単一のオブジェクト追跡は、異なるモーダル参照に従って、ビデオシーケンス内の対象オブジェクトを特定することを目的としている。
異なるモダリティ間のギャップのため、既存のトラッカーのほとんどは、これらの参照設定の単一または部分のために設計されている。
3つの参照設定を同時に処理できるUVLTrackという統合トラッカーを提案する。
論文 参考訳(メタデータ) (2024-01-20T13:20:54Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Generalizing Multiple Object Tracking to Unseen Domains by Introducing
Natural Language Representation [33.03600813115465]
本稿では,領域一般化能力を高めるために,視覚的MOTモデルに自然言語表現を導入することを提案する。
この問題に対処するために、視覚的コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。
VLMは生成した視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトとを結合して、インスタンスレベルの擬似テキスト記述を取得する。
また,MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2022-12-03T07:57:31Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。