論文の概要: Generalizing Multiple Object Tracking to Unseen Domains by Introducing
Natural Language Representation
- arxiv url: http://arxiv.org/abs/2212.01568v1
- Date: Sat, 3 Dec 2022 07:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 17:08:09.821058
- Title: Generalizing Multiple Object Tracking to Unseen Domains by Introducing
Natural Language Representation
- Title(参考訳): 自然言語表現の導入による未認識領域への複数オブジェクト追跡の一般化
- Authors: En Yu, Songtao Liu, Zhuoling Li, Jinrong Yang, Zeming li, Shoudong
Han, Wenbing Tao
- Abstract要約: 本稿では,領域一般化能力を高めるために,視覚的MOTモデルに自然言語表現を導入することを提案する。
この問題に対処するために、視覚的コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。
VLMは生成した視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトとを結合して、インスタンスレベルの擬似テキスト記述を取得する。
また,MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することが確認された。
- 参考スコア(独自算出の注目度): 33.03600813115465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although existing multi-object tracking (MOT) algorithms have obtained
competitive performance on various benchmarks, almost all of them train and
validate models on the same domain. The domain generalization problem of MOT is
hardly studied. To bridge this gap, we first draw the observation that the
high-level information contained in natural language is domain invariant to
different tracking domains. Based on this observation, we propose to introduce
natural language representation into visual MOT models for boosting the domain
generalization ability. However, it is infeasible to label every tracking
target with a textual description. To tackle this problem, we design two
modules, namely visual context prompting (VCP) and visual-language mixing
(VLM). Specifically, VCP generates visual prompts based on the input frames.
VLM joints the information in the generated visual prompts and the textual
prompts from a pre-defined Trackbook to obtain instance-level pseudo textual
description, which is domain invariant to different tracking scenes. Through
training models on MOT17 and validating them on MOT20, we observe that the
pseudo textual descriptions generated by our proposed modules improve the
generalization performance of query-based trackers by large margins.
- Abstract(参考訳): 既存のマルチオブジェクトトラッキング(mot)アルゴリズムは様々なベンチマークで競合性能を得ているが、ほとんどが同じドメインでモデルのトレーニングと検証を行っている。
MOTの領域一般化問題はほとんど研究されていない。
このギャップを埋めるために,まず,自然言語に含まれる高レベル情報は異なる追跡領域に不変な領域であることを示す。
そこで本研究では,視覚的MOTモデルに自然言語表現を導入し,ドメインの一般化能力を高めることを提案する。
しかし、すべての追跡対象をテキスト記述でラベル付けすることは不可能である。
この問題に対処するために、視覚コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。
具体的には、VCPは入力フレームに基づいて視覚的なプロンプトを生成する。
VLMは生成された視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトを結合して、異なるトラッキングシーンとドメイン不変のインスタンスレベルの擬似テキスト記述を得る。
MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することがわかった。
関連論文リスト
- Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Joint Visual Grounding and Tracking with Natural Language Specification [6.695284124073918]
自然言語仕様による追跡は、自然言語記述に基づくシーケンス内の参照対象の特定を目的としている。
統合されたタスクとしてグラウンドとトラッキングを再構成する統合的な視覚的グラウンドとトラッキングフレームワークを提案する。
本手法は,トラッキングとグラウンドの両方において,最先端のアルゴリズムに対して良好に動作する。
論文 参考訳(メタデータ) (2023-03-21T17:09:03Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Grounding Visual Representations with Texts for Domain Generalization [9.554646174100123]
相互モダリティの監督は、ドメイン不変の視覚表現の接地に成功することができる。
提案手法は,5つのマルチドメインデータセットの平均性能を1位に評価する。
論文 参考訳(メタデータ) (2022-07-21T03:43:38Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [144.38869017091199]
画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Multi-Object Tracking and Segmentation via Neural Message Passing [0.0]
グラフは、Multiple Object Tracking (MOT) とMultiple Object Tracking (MOTS) を定式化する自然な方法を提供する。
我々は、メッセージパッシングネットワーク(MPN)に基づく、完全に差別化可能なフレームワークを定義するために、MOTの古典的なネットワークフロー定式化を利用する。
いくつかの公開データセットにおけるトラッキングとセグメンテーションの両面での最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-07-15T13:03:47Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。