論文の概要: TP-GMOT: Tracking Generic Multiple Object by Textual Prompt with Motion-Appearance Cost (MAC) SORT
- arxiv url: http://arxiv.org/abs/2409.02490v1
- Date: Wed, 4 Sep 2024 07:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 20:02:12.283194
- Title: TP-GMOT: Tracking Generic Multiple Object by Textual Prompt with Motion-Appearance Cost (MAC) SORT
- Title(参考訳): TP-GMOT:動き提示コスト(MAC)SORTを用いたテキストプロンプトによるジェネリック多重物体の追跡
- Authors: Duy Le Dinh Anh, Kim Hoang Tran, Ngan Hoang Le,
- Abstract要約: マルチオブジェクト追跡(MOT)は、かなり進歩しているが、事前の知識に大きく依存している。
ジェネリック・マルチプル・オブジェクト・トラッキング(GMOT)は、類似した外観を持つ複数のオブジェクトを追跡するが、ターゲットに関する事前情報が少ない。
我々はtextbftextTP-GMOTと呼ばれる新しいテキストプロンプトベースのオープン語彙GMOTフレームワークを導入する。
GMOTタスク用のtextRefer-GMOTデータセット上で、コントリビューションをベンチマークします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multi-Object Tracking (MOT) has made substantial advancements, it is limited by heavy reliance on prior knowledge and limited to predefined categories. In contrast, Generic Multiple Object Tracking (GMOT), tracking multiple objects with similar appearance, requires less prior information about the targets but faces challenges with variants like viewpoint, lighting, occlusion, and resolution. Our contributions commence with the introduction of the \textbf{\text{Refer-GMOT dataset}} a collection of videos, each accompanied by fine-grained textual descriptions of their attributes. Subsequently, we introduce a novel text prompt-based open-vocabulary GMOT framework, called \textbf{\text{TP-GMOT}}, which can track never-seen object categories with zero training examples. Within \text{TP-GMOT} framework, we introduce two novel components: (i) {\textbf{\text{TP-OD}}, an object detection by a textual prompt}, for accurately detecting unseen objects with specific characteristics. (ii) Motion-Appearance Cost SORT \textbf{\text{MAC-SORT}}, a novel object association approach that adeptly integrates motion and appearance-based matching strategies to tackle the complex task of tracking multiple generic objects with high similarity. Our contributions are benchmarked on the \text{Refer-GMOT} dataset for GMOT task. Additionally, to assess the generalizability of the proposed \text{TP-GMOT} framework and the effectiveness of \text{MAC-SORT} tracker, we conduct ablation studies on the DanceTrack and MOT20 datasets for the MOT task. Our dataset, code, and models will be publicly available at: https://fsoft-aic.github.io/TP-GMOT
- Abstract(参考訳): マルチオブジェクト追跡(MOT)はかなり進歩してきたが、事前知識に大きく依存し、予め定義されたカテゴリに限られている。
対照的に、類似した外観を持つ複数のオブジェクトを追跡するジェネリック・マルチオブジェクト追跡(GMOT)は、ターゲットに関する事前情報が少ないが、視点、照明、オクルージョン、解像度などのバリエーションによる課題に直面している。
私たちのコントリビューションは、ビデオの集合である‘textbf{\text{Refer-GMOT dataset}}の導入から始まり、それぞれの属性の詳細なテキスト記述が伴います。
次に,テキストプロンプトをベースとしたオープン語彙GMOTフレームワークである‘textbf{\text{TP-GMOT}}を導入する。
text{TP-GMOT} フレームワークでは、2つの新しいコンポーネントを紹介します。
i) {\textbf{\text{TP-OD}} テキストプロンプトによるオブジェクト検出で、特定の特徴を持つ未確認オブジェクトを正確に検出する。
(II)モーションアプライアンスコスト SORT \textbf{\text{MAC-SORT}} は、複数のジェネリックオブジェクトを高い類似性で追跡する複雑なタスクに取り組むために、動きと外観に基づくマッチング戦略を包括的に統合する新しいオブジェクトアソシエーションアプローチである。
私たちのコントリビューションは、GMOTタスクのtext{Refer-GMOT}データセットでベンチマークされます。
また,提案した‘text{TP-GMOT}フレームワークの一般化性と,‘text{MAC-SORT}トラッカーの有効性を評価するために,MOTタスクのためのDanceTrackおよびMOT20データセットのアブレーション研究を行う。
私たちのデータセット、コード、モデルは、https://fsoft-aic.github.io/TP-GMOTで公開されます。
関連論文リスト
- OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - Siamese-DETR for Generic Multi-Object Tracking [16.853363984562602]
従来のマルチオブジェクト追跡(MOT)は、事前に定義されたクローズドセットカテゴリに属するオブジェクトを追跡することに限定されている。
Siamese-DETRは、所定のテキストプロンプトとテンプレート画像を用いて、事前に定義されたカテゴリを超えてオブジェクトを追跡する。
Siamese-DETRはGMOT-40データセット上の既存のMOTメソッドを大きなマージンで上回る。
論文 参考訳(メタデータ) (2023-10-27T03:32:05Z) - Follow Anything: Open-set detection, tracking, and following in
real-time [89.83421771766682]
我々は,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。
私たちのアプローチは、何でも従う"(FAn)と呼ばれ、オープンな語彙とマルチモーダルモデルです。
FAnは軽量(6~8GB)グラフィックカードでラップトップにデプロイでき、毎秒6~20フレームのスループットを実現する。
論文 参考訳(メタデータ) (2023-08-10T17:57:06Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Z-GMOT: Zero-shot Generic Multiple Object Tracking [8.878331472995498]
マルチオブジェクト追跡(MOT)は、事前知識や事前定義されたカテゴリに依存するような制限に直面している。
これらの問題に対処するため、ジェネリック・マルチプル・オブジェクト・トラッキング(GMOT)が代替アプローチとして登場した。
我々は,初期バウンディングボックスや事前定義されたカテゴリを必要とせずに,テキストに表示されるカテゴリからオブジェクトを追跡する,最先端追跡ソリューションである$mathttZ-GMOT$を提案する。
論文 参考訳(メタデータ) (2023-05-28T06:44:33Z) - Type-to-Track: Retrieve Any Object via Prompt-based Tracking [34.859061177766016]
本稿では,Type-to-Trackと呼ばれるマルチオブジェクト追跡のための新しいパラダイムを提案する。
Type-to-Trackでは、自然言語の記述をタイプすることで、ビデオ内のオブジェクトを追跡することができる。
我々は、GroOTと呼ばれる、そのグラウンドド多重オブジェクト追跡タスクのための新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-05-22T21:25:27Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。
モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。
GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文 参考訳(メタデータ) (2021-04-26T17:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。