論文の概要: Type-to-Track: Retrieve Any Object via Prompt-based Tracking
- arxiv url: http://arxiv.org/abs/2305.13495v3
- Date: Sat, 30 Sep 2023 18:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 14:43:29.869719
- Title: Type-to-Track: Retrieve Any Object via Prompt-based Tracking
- Title(参考訳): Type-to-Track: Promptベースのトラッキングによる任意のオブジェクトの検索
- Authors: Pha Nguyen, Kha Gia Quach, Kris Kitani, Khoa Luu
- Abstract要約: 本稿では,Type-to-Trackと呼ばれるマルチオブジェクト追跡のための新しいパラダイムを提案する。
Type-to-Trackでは、自然言語の記述をタイプすることで、ビデオ内のオブジェクトを追跡することができる。
我々は、GroOTと呼ばれる、そのグラウンドド多重オブジェクト追跡タスクのための新しいデータセットを提案する。
- 参考スコア(独自算出の注目度): 34.859061177766016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the recent trends in vision problems is to use natural language
captions to describe the objects of interest. This approach can overcome some
limitations of traditional methods that rely on bounding boxes or category
annotations. This paper introduces a novel paradigm for Multiple Object
Tracking called Type-to-Track, which allows users to track objects in videos by
typing natural language descriptions. We present a new dataset for that
Grounded Multiple Object Tracking task, called GroOT, that contains videos with
various types of objects and their corresponding textual captions describing
their appearance and action in detail. Additionally, we introduce two new
evaluation protocols and formulate evaluation metrics specifically for this
task. We develop a new efficient method that models a transformer-based
eMbed-ENcoDE-extRact framework (MENDER) using the third-order tensor
decomposition. The experiments in five scenarios show that our MENDER approach
outperforms another two-stage design in terms of accuracy and efficiency, up to
14.7% accuracy and 4$\times$ speed faster.
- Abstract(参考訳): 視覚問題の最近のトレンドの1つは、興味のある対象を記述するために自然言語キャプションを使用することである。
このアプローチは、境界ボックスやカテゴリアノテーションに依存する従来のメソッドのいくつかの制限を克服することができる。
本稿では,ユーザが自然言語記述を入力して動画中のオブジェクトを追跡できる,複数のオブジェクト追跡のための新しいパラダイムであるtype-to-trackを提案する。
我々は,GroOTと呼ばれる,さまざまな種類のオブジェクトと,その外観と動作を詳細に記述したテキストキャプションを収録した,新しいグラウンドド・マルチオブジェクト追跡タスクのデータセットを提案する。
さらに,本課題に特化して2つの評価プロトコルと評価基準を導入する。
本研究では,3次テンソル分解を用いたトランスフォーマーベースのeMbed-ENcoDE-extRactフレームワーク(MENDER)をモデル化する。
5つのシナリオでの実験では、MENDERのアプローチは、精度と効率の点で別の2段階の設計よりも14.7%の精度と4$\times$スピードで優れていることが示された。
関連論文リスト
- Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Open-Vocabulary Object Detection using Pseudo Caption Labels [3.260777306556596]
よりきめ細かいラベルは、新しいオブジェクトに関するより豊かな知識を引き出すために必要である、と我々は主張する。
分離されたVisualGenomeデータセットでトレーニングされた最良のモデルは、APが34.5、APrが30.6で、最先端のパフォーマンスに匹敵する。
論文 参考訳(メタデータ) (2023-03-23T05:10:22Z) - Referring Multi-Object Tracking [78.63827591797124]
本稿では,Multi-object Tracking (RMOT) と呼ばれる,新しい汎用的な参照理解タスクを提案する。
その中核となる考え方は、言語表現を意味的キューとして利用して、多目的追跡の予測を導くことである。
我々の知る限りでは、ビデオにおける任意の数の参照オブジェクト予測を達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2023-03-06T18:50:06Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Interactive Multi-Class Tiny-Object Detection [11.243831167773678]
本稿では,複数のクラスからの小さなオブジェクトの複数インスタンスに対して,インタラクティブなアノテーション手法を提案する。
我々のアプローチであるC3Detは、局所的およびグローバル的にアノテータ入力とフルイメージコンテキストを関連づける。
提案手法は対話的アノテーションにおいて既存の手法よりも優れており,より少ないクリックで高いmAPを実現する。
論文 参考訳(メタデータ) (2022-03-29T06:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。