論文の概要: Type-to-Track: Retrieve Any Object via Prompt-based Tracking
- arxiv url: http://arxiv.org/abs/2305.13495v3
- Date: Sat, 30 Sep 2023 18:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 14:43:29.869719
- Title: Type-to-Track: Retrieve Any Object via Prompt-based Tracking
- Title(参考訳): Type-to-Track: Promptベースのトラッキングによる任意のオブジェクトの検索
- Authors: Pha Nguyen, Kha Gia Quach, Kris Kitani, Khoa Luu
- Abstract要約: 本稿では,Type-to-Trackと呼ばれるマルチオブジェクト追跡のための新しいパラダイムを提案する。
Type-to-Trackでは、自然言語の記述をタイプすることで、ビデオ内のオブジェクトを追跡することができる。
我々は、GroOTと呼ばれる、そのグラウンドド多重オブジェクト追跡タスクのための新しいデータセットを提案する。
- 参考スコア(独自算出の注目度): 34.859061177766016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the recent trends in vision problems is to use natural language
captions to describe the objects of interest. This approach can overcome some
limitations of traditional methods that rely on bounding boxes or category
annotations. This paper introduces a novel paradigm for Multiple Object
Tracking called Type-to-Track, which allows users to track objects in videos by
typing natural language descriptions. We present a new dataset for that
Grounded Multiple Object Tracking task, called GroOT, that contains videos with
various types of objects and their corresponding textual captions describing
their appearance and action in detail. Additionally, we introduce two new
evaluation protocols and formulate evaluation metrics specifically for this
task. We develop a new efficient method that models a transformer-based
eMbed-ENcoDE-extRact framework (MENDER) using the third-order tensor
decomposition. The experiments in five scenarios show that our MENDER approach
outperforms another two-stage design in terms of accuracy and efficiency, up to
14.7% accuracy and 4$\times$ speed faster.
- Abstract(参考訳): 視覚問題の最近のトレンドの1つは、興味のある対象を記述するために自然言語キャプションを使用することである。
このアプローチは、境界ボックスやカテゴリアノテーションに依存する従来のメソッドのいくつかの制限を克服することができる。
本稿では,ユーザが自然言語記述を入力して動画中のオブジェクトを追跡できる,複数のオブジェクト追跡のための新しいパラダイムであるtype-to-trackを提案する。
我々は,GroOTと呼ばれる,さまざまな種類のオブジェクトと,その外観と動作を詳細に記述したテキストキャプションを収録した,新しいグラウンドド・マルチオブジェクト追跡タスクのデータセットを提案する。
さらに,本課題に特化して2つの評価プロトコルと評価基準を導入する。
本研究では,3次テンソル分解を用いたトランスフォーマーベースのeMbed-ENcoDE-extRactフレームワーク(MENDER)をモデル化する。
5つのシナリオでの実験では、MENDERのアプローチは、精度と効率の点で別の2段階の設計よりも14.7%の精度と4$\times$スピードで優れていることが示された。
関連論文リスト
- InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - TP-GMOT: Tracking Generic Multiple Object by Textual Prompt with Motion-Appearance Cost (MAC) SORT [0.0]
マルチオブジェクト追跡(MOT)は、かなり進歩しているが、事前の知識に大きく依存している。
ジェネリック・マルチプル・オブジェクト・トラッキング(GMOT)は、類似した外観を持つ複数のオブジェクトを追跡するが、ターゲットに関する事前情報が少ない。
我々はtextbftextTP-GMOTと呼ばれる新しいテキストプロンプトベースのオープン語彙GMOTフレームワークを導入する。
GMOTタスク用のtextRefer-GMOTデータセット上で、コントリビューションをベンチマークします。
論文 参考訳(メタデータ) (2024-09-04T07:33:09Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Open-Vocabulary Object Detection using Pseudo Caption Labels [3.260777306556596]
よりきめ細かいラベルは、新しいオブジェクトに関するより豊かな知識を引き出すために必要である、と我々は主張する。
分離されたVisualGenomeデータセットでトレーニングされた最良のモデルは、APが34.5、APrが30.6で、最先端のパフォーマンスに匹敵する。
論文 参考訳(メタデータ) (2023-03-23T05:10:22Z) - Referring Multi-Object Tracking [78.63827591797124]
本稿では,Multi-object Tracking (RMOT) と呼ばれる,新しい汎用的な参照理解タスクを提案する。
その中核となる考え方は、言語表現を意味的キューとして利用して、多目的追跡の予測を導くことである。
我々の知る限りでは、ビデオにおける任意の数の参照オブジェクト予測を達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2023-03-06T18:50:06Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Interactive Multi-Class Tiny-Object Detection [11.243831167773678]
本稿では,複数のクラスからの小さなオブジェクトの複数インスタンスに対して,インタラクティブなアノテーション手法を提案する。
我々のアプローチであるC3Detは、局所的およびグローバル的にアノテータ入力とフルイメージコンテキストを関連づける。
提案手法は対話的アノテーションにおいて既存の手法よりも優れており,より少ないクリックで高いmAPを実現する。
論文 参考訳(メタデータ) (2022-03-29T06:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。