Fugu-MT 論文翻訳(概要): Generalizing Multiple Object Tracking to Unseen Domains by Introducing Natural Language Representation

論文の概要: Generalizing Multiple Object Tracking to Unseen Domains by Introducing Natural Language Representation

arxiv url: http://arxiv.org/abs/2212.01568v1
Date: Sat, 3 Dec 2022 07:57:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-06 17:08:09.821058
Title: Generalizing Multiple Object Tracking to Unseen Domains by Introducing Natural Language Representation
Title（参考訳）: 自然言語表現の導入による未認識領域への複数オブジェクト追跡の一般化
Authors: En Yu, Songtao Liu, Zhuoling Li, Jinrong Yang, Zeming li, Shoudong Han, Wenbing Tao
Abstract要約: 本稿では,領域一般化能力を高めるために,視覚的MOTモデルに自然言語表現を導入することを提案する。この問題に対処するために、視覚的コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。 VLMは生成した視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトとを結合して、インスタンスレベルの擬似テキスト記述を取得する。また,MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することが確認された。
参考スコア（独自算出の注目度）: 33.03600813115465
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although existing multi-object tracking (MOT) algorithms have obtained competitive performance on various benchmarks, almost all of them train and validate models on the same domain. The domain generalization problem of MOT is hardly studied. To bridge this gap, we first draw the observation that the high-level information contained in natural language is domain invariant to different tracking domains. Based on this observation, we propose to introduce natural language representation into visual MOT models for boosting the domain generalization ability. However, it is infeasible to label every tracking target with a textual description. To tackle this problem, we design two modules, namely visual context prompting (VCP) and visual-language mixing (VLM). Specifically, VCP generates visual prompts based on the input frames. VLM joints the information in the generated visual prompts and the textual prompts from a pre-defined Trackbook to obtain instance-level pseudo textual description, which is domain invariant to different tracking scenes. Through training models on MOT17 and validating them on MOT20, we observe that the pseudo textual descriptions generated by our proposed modules improve the generalization performance of query-based trackers by large margins.
Abstract（参考訳）: 既存のマルチオブジェクトトラッキング(mot)アルゴリズムは様々なベンチマークで競合性能を得ているが、ほとんどが同じドメインでモデルのトレーニングと検証を行っている。 MOTの領域一般化問題はほとんど研究されていない。このギャップを埋めるために,まず,自然言語に含まれる高レベル情報は異なる追跡領域に不変な領域であることを示す。そこで本研究では,視覚的MOTモデルに自然言語表現を導入し,ドメインの一般化能力を高めることを提案する。しかし、すべての追跡対象をテキスト記述でラベル付けすることは不可能である。この問題に対処するために、視覚コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。具体的には、VCPは入力フレームに基づいて視覚的なプロンプトを生成する。 VLMは生成された視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトを結合して、異なるトラッキングシーンとドメイン不変のインスタンスレベルの擬似テキスト記述を得る。 MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することがわかった。

関連論文リスト

Prompt Disentanglement via Language Guidance and Representation Alignment for Domain Generalization [75.88719716002014]
ドメイン一般化 (Domain Generalization, DG) は、目に見えないターゲットドメインに対して効果的に機能する汎用モデルの開発を目指している。 VFM(Pre-trained Visual Foundation Models)の最近の進歩は、ディープラーニングモデルの一般化能力を向上する大きな可能性を示している。 VFMの制御可能で柔軟な言語プロンプトを活用することで,この問題に対処することを提案する。
論文参考訳（メタデータ） (2025-07-03T03:52:37Z)
UPRE: Zero-Shot Domain Adaptation for Object Detection via Unified Prompt and Representation Enhancement [25.139037597606233]
ゼロショット領域適応(ZSDA)は、ターゲット領域に画像が欠如しているため、重大な課題を提起する。従来のアプローチでは、この課題に対処するためにVLM(Vision-Language Models)を使用していた。本稿では,テキストプロンプトと視覚表現を協調的に最適化するUPREフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-01T13:00:41Z)
CLDTracker: A Comprehensive Language Description for Visual Tracking [17.858934583542325]
我々は、堅牢な視覚追跡のための新しい包括的言語記述フレームワークであるCLDTrackerを提案する。トラッカーはテキストと視覚分岐からなる二重ブランチアーキテクチャを導入している。 6つの標準VOTベンチマークの実験は、CLDTrackerがSOTAのパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-05-29T17:39:30Z)
Dynamic Updates for Language Adaptation in Visual-Language Tracking [10.64409248365897]
本稿では,複数モーダル参照を動的に更新することで目標の最新の状態を捕捉し,一貫性を維持する視覚言語追跡フレームワークDUTrackを提案する。 DUTrackは、LaSOT、LaSOT$_rmext$、TNL2K、TB99-Lang、GOT-10K、UAV123を含む4つの主要なビジョン言語と2つのビジョンのみのトラッキングベンチマークで、最先端のパフォーマンスを新たに達成している。
論文参考訳（メタデータ） (2025-03-09T13:47:19Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
ChatTracker: Enhancing Visual Tracking Performance via Chatting with Multimodal Large Language Model [29.702895846058265]
Vision-Language(VL)トラッカーは、様々なアプリケーションにおける汎用性を高めるために、追加の自然言語記述を活用することを提案している。 VLトラッカーは、追跡性能の点で依然としてState-of-The-Art (SoTA)ビジュアルトラッカーより劣っている。本稿では,MLLM(Multimodal Large Language Model)における多言語知識の豊富な活用を目的としたChatTrackerを提案し,高品質な言語記述を生成する。
論文参考訳（メタデータ） (2024-11-04T02:43:55Z)
IP-MOT: Instance Prompt Learning for Cross-Domain Multi-Object Tracking [13.977088329815933]
マルチオブジェクト追跡(MOT)は、ビデオフレーム間で複数のオブジェクトを関連付けることを目的としている。既存のアプローチのほとんどは単一のドメイン内でトレーニングと追跡を行っており、結果としてドメイン間の一般化性が欠如している。我々は,具体的テキスト記述なしで動作可能なMOTのエンドツーエンドトランスフォーマモデルであるIP-MOTを開発した。
論文参考訳（メタデータ） (2024-10-30T14:24:56Z)
ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文参考訳（メタデータ） (2024-07-31T11:40:29Z)
Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文参考訳（メタデータ） (2024-06-07T11:18:40Z)
Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文参考訳（メタデータ） (2023-09-30T02:59:49Z)
Joint Visual Grounding and Tracking with Natural Language Specification [6.695284124073918]
自然言語仕様による追跡は、自然言語記述に基づくシーケンス内の参照対象の特定を目的としている。統合されたタスクとしてグラウンドとトラッキングを再構成する統合的な視覚的グラウンドとトラッキングフレームワークを提案する。本手法は,トラッキングとグラウンドの両方において,最先端のアルゴリズムに対して良好に動作する。
論文参考訳（メタデータ） (2023-03-21T17:09:03Z)
Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。 1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文参考訳（メタデータ） (2022-12-27T09:13:19Z)
End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文参考訳（メタデータ） (2022-10-26T10:19:37Z)
Multi-Object Tracking and Segmentation via Neural Message Passing [0.0]
グラフは、Multiple Object Tracking (MOT) とMultiple Object Tracking (MOTS) を定式化する自然な方法を提供する。我々は、メッセージパッシングネットワーク(MPN)に基づく、完全に差別化可能なフレームワークを定義するために、MOTの古典的なネットワークフロー定式化を利用する。いくつかの公開データセットにおけるトラッキングとセグメンテーションの両面での最先端の結果が得られます。
論文参考訳（メタデータ） (2022-07-15T13:03:47Z)
Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。多様なアプリケーションにおけるMViT提案の重要性を示す。
論文参考訳（メタデータ） (2021-11-22T18:59:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。