論文の概要: IP-MOT: Instance Prompt Learning for Cross-Domain Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2410.23907v1
- Date: Wed, 30 Oct 2024 14:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:44.107810
- Title: IP-MOT: Instance Prompt Learning for Cross-Domain Multi-Object Tracking
- Title(参考訳): IP-MOT: クロスドメインマルチオブジェクト追跡のためのインスタンスプロンプト学習
- Authors: Run Luo, Zikai Song, Longze Chen, Yunshui Li, Min Yang, Wei Yang,
- Abstract要約: マルチオブジェクト追跡(MOT)は、ビデオフレーム間で複数のオブジェクトを関連付けることを目的としている。
既存のアプローチのほとんどは単一のドメイン内でトレーニングと追跡を行っており、結果としてドメイン間の一般化性が欠如している。
我々は,具体的テキスト記述なしで動作可能なMOTのエンドツーエンドトランスフォーマモデルであるIP-MOTを開発した。
- 参考スコア(独自算出の注目度): 13.977088329815933
- License:
- Abstract: Multi-Object Tracking (MOT) aims to associate multiple objects across video frames and is a challenging vision task due to inherent complexities in the tracking environment. Most existing approaches train and track within a single domain, resulting in a lack of cross-domain generalizability to data from other domains. While several works have introduced natural language representation to bridge the domain gap in visual tracking, these textual descriptions often provide too high-level a view and fail to distinguish various instances within the same class. In this paper, we address this limitation by developing IP-MOT, an end-to-end transformer model for MOT that operates without concrete textual descriptions. Our approach is underpinned by two key innovations: Firstly, leveraging a pre-trained vision-language model, we obtain instance-level pseudo textual descriptions via prompt-tuning, which are invariant across different tracking scenes; Secondly, we introduce a query-balanced strategy, augmented by knowledge distillation, to further boost the generalization capabilities of our model. Extensive experiments conducted on three widely used MOT benchmarks, including MOT17, MOT20, and DanceTrack, demonstrate that our approach not only achieves competitive performance on same-domain data compared to state-of-the-art models but also significantly improves the performance of query-based trackers by large margins for cross-domain inputs.
- Abstract(参考訳): マルチオブジェクト追跡(MOT)は、ビデオフレーム間で複数のオブジェクトを関連付けることを目的としており、トラッキング環境に固有の複雑さのため、難しい視覚課題である。
既存のアプローチのほとんどは単一のドメイン内でトレーニングと追跡を行っており、結果として他のドメインのデータに対するクロスドメインの一般化性が欠如している。
いくつかの研究が視覚的トラッキングにおけるドメインギャップを埋めるために自然言語表現を導入したが、これらのテキスト記述は高レベルなビューを提供することが多く、同じクラス内の様々なインスタンスを区別することができない。
本稿では,具体的テキスト記述なしで動作可能なMOTのエンドツーエンドトランスフォーマモデルであるIP-MOTを開発することで,この制限に対処する。
まず、事前学習された視覚言語モデルを利用して、異なるトラッキングシーン間で不変なプロンプトチューニングにより、インスタンスレベルの擬似テキスト記述を得る。
また,MOT17,MOT20,DanceTrackなど,広く使用されている3つのMOTベンチマークを用いて行った大規模な実験により,本手法は,最先端モデルと比較して,同一ドメインデータ上での競合性能を達成するだけでなく,クロスドメイン入力に対する大きなマージンによるクエリベースのトラッカーの性能を著しく向上することを示した。
関連論文リスト
- Context-Enhanced Multi-View Trajectory Representation Learning: Bridging the Gap through Self-Supervised Models [27.316692263196277]
MVTrajは、軌道表現学習のための新しい多視点モデリング手法である。
GPSから道路網、関心点まで多様な文脈知識を統合し、軌跡データのより包括的な理解を提供する。
実世界のデータセットに対する大規模な実験により、MVTrajは様々な空間ビューに関連するタスクにおいて、既存のベースラインを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-10-17T03:56:12Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Generalizing Multiple Object Tracking to Unseen Domains by Introducing
Natural Language Representation [33.03600813115465]
本稿では,領域一般化能力を高めるために,視覚的MOTモデルに自然言語表現を導入することを提案する。
この問題に対処するために、視覚的コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。
VLMは生成した視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトとを結合して、インスタンスレベルの擬似テキスト記述を取得する。
また,MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2022-12-03T07:57:31Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文 参考訳(メタデータ) (2020-04-17T11:45:28Z) - Universal-RCNN: Universal Object Detector via Transferable Graph R-CNN [117.80737222754306]
我々はUniversal-RCNNと呼ばれる新しいユニバーサルオブジェクト検出器を提案する。
まず、すべてのカテゴリの高レベルなセマンティック表現を統合することで、グローバルなセマンティックプールを生成する。
ドメイン内推論モジュールは、空間認識GCNによってガイドされる1つのデータセット内のスパースグラフ表現を学習し、伝播する。
論文 参考訳(メタデータ) (2020-02-18T07:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。