論文の概要: Generalizing Multiple Object Tracking to Unseen Domains by Introducing
Natural Language Representation
- arxiv url: http://arxiv.org/abs/2212.01568v1
- Date: Sat, 3 Dec 2022 07:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 17:08:09.821058
- Title: Generalizing Multiple Object Tracking to Unseen Domains by Introducing
Natural Language Representation
- Title(参考訳): 自然言語表現の導入による未認識領域への複数オブジェクト追跡の一般化
- Authors: En Yu, Songtao Liu, Zhuoling Li, Jinrong Yang, Zeming li, Shoudong
Han, Wenbing Tao
- Abstract要約: 本稿では,領域一般化能力を高めるために,視覚的MOTモデルに自然言語表現を導入することを提案する。
この問題に対処するために、視覚的コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。
VLMは生成した視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトとを結合して、インスタンスレベルの擬似テキスト記述を取得する。
また,MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することが確認された。
- 参考スコア(独自算出の注目度): 33.03600813115465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although existing multi-object tracking (MOT) algorithms have obtained
competitive performance on various benchmarks, almost all of them train and
validate models on the same domain. The domain generalization problem of MOT is
hardly studied. To bridge this gap, we first draw the observation that the
high-level information contained in natural language is domain invariant to
different tracking domains. Based on this observation, we propose to introduce
natural language representation into visual MOT models for boosting the domain
generalization ability. However, it is infeasible to label every tracking
target with a textual description. To tackle this problem, we design two
modules, namely visual context prompting (VCP) and visual-language mixing
(VLM). Specifically, VCP generates visual prompts based on the input frames.
VLM joints the information in the generated visual prompts and the textual
prompts from a pre-defined Trackbook to obtain instance-level pseudo textual
description, which is domain invariant to different tracking scenes. Through
training models on MOT17 and validating them on MOT20, we observe that the
pseudo textual descriptions generated by our proposed modules improve the
generalization performance of query-based trackers by large margins.
- Abstract(参考訳): 既存のマルチオブジェクトトラッキング(mot)アルゴリズムは様々なベンチマークで競合性能を得ているが、ほとんどが同じドメインでモデルのトレーニングと検証を行っている。
MOTの領域一般化問題はほとんど研究されていない。
このギャップを埋めるために,まず,自然言語に含まれる高レベル情報は異なる追跡領域に不変な領域であることを示す。
そこで本研究では,視覚的MOTモデルに自然言語表現を導入し,ドメインの一般化能力を高めることを提案する。
しかし、すべての追跡対象をテキスト記述でラベル付けすることは不可能である。
この問題に対処するために、視覚コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。
具体的には、VCPは入力フレームに基づいて視覚的なプロンプトを生成する。
VLMは生成された視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトを結合して、異なるトラッキングシーンとドメイン不変のインスタンスレベルの擬似テキスト記述を得る。
MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することがわかった。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model [29.702895846058265]
Vision-Language(VL)トラッカーは、様々なアプリケーションにおける汎用性を高めるために、追加の自然言語記述を活用することを提案している。
VLトラッカーは、追跡性能の点で依然としてState-of-The-Art (SoTA)ビジュアルトラッカーより劣っている。
本稿では,MLLM(Multimodal Large Language Model)における多言語知識の豊富な活用を目的としたChatTrackerを提案し,高品質な言語記述を生成する。
論文 参考訳(メタデータ) (2024-11-04T02:43:55Z) - IP-MOT: Instance Prompt Learning for Cross-Domain Multi-Object Tracking [13.977088329815933]
マルチオブジェクト追跡(MOT)は、ビデオフレーム間で複数のオブジェクトを関連付けることを目的としている。
既存のアプローチのほとんどは単一のドメイン内でトレーニングと追跡を行っており、結果としてドメイン間の一般化性が欠如している。
我々は,具体的テキスト記述なしで動作可能なMOTのエンドツーエンドトランスフォーマモデルであるIP-MOTを開発した。
論文 参考訳(メタデータ) (2024-10-30T14:24:56Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Joint Visual Grounding and Tracking with Natural Language Specification [6.695284124073918]
自然言語仕様による追跡は、自然言語記述に基づくシーケンス内の参照対象の特定を目的としている。
統合されたタスクとしてグラウンドとトラッキングを再構成する統合的な視覚的グラウンドとトラッキングフレームワークを提案する。
本手法は,トラッキングとグラウンドの両方において,最先端のアルゴリズムに対して良好に動作する。
論文 参考訳(メタデータ) (2023-03-21T17:09:03Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Multi-Object Tracking and Segmentation via Neural Message Passing [0.0]
グラフは、Multiple Object Tracking (MOT) とMultiple Object Tracking (MOTS) を定式化する自然な方法を提供する。
我々は、メッセージパッシングネットワーク(MPN)に基づく、完全に差別化可能なフレームワークを定義するために、MOTの古典的なネットワークフロー定式化を利用する。
いくつかの公開データセットにおけるトラッキングとセグメンテーションの両面での最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-07-15T13:03:47Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。