論文の概要: OVTrack: Open-Vocabulary Multiple Object Tracking
- arxiv url: http://arxiv.org/abs/2304.08408v1
- Date: Mon, 17 Apr 2023 16:20:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 14:23:29.934561
- Title: OVTrack: Open-Vocabulary Multiple Object Tracking
- Title(参考訳): ovtrack: オープンボキャブラリーマルチオブジェクトトラッキング
- Authors: Siyuan Li, Tobias Fischer, Lei Ke, Henghui Ding, Martin Danelljan,
Fisher Yu
- Abstract要約: OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
- 参考スコア(独自算出の注目度): 64.73379741435255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to recognize, localize and track dynamic objects in a scene is
fundamental to many real-world applications, such as self-driving and robotic
systems. Yet, traditional multiple object tracking (MOT) benchmarks rely only
on a few object categories that hardly represent the multitude of possible
objects that are encountered in the real world. This leaves contemporary MOT
methods limited to a small set of pre-defined object categories. In this paper,
we address this limitation by tackling a novel task, open-vocabulary MOT, that
aims to evaluate tracking beyond pre-defined training categories. We further
develop OVTrack, an open-vocabulary tracker that is capable of tracking
arbitrary object classes. Its design is based on two key ingredients: First,
leveraging vision-language models for both classification and association via
knowledge distillation; second, a data hallucination strategy for robust
appearance feature learning from denoising diffusion probabilistic models. The
result is an extremely data-efficient open-vocabulary tracker that sets a new
state-of-the-art on the large-scale, large-vocabulary TAO benchmark, while
being trained solely on static images. Project page:
https://www.vis.xyz/pub/ovtrack/
- Abstract(参考訳): シーン内の動的オブジェクトを認識し、ローカライズし、追跡する能力は、自動運転やロボットシステムなど、多くの現実世界のアプリケーションに基本である。
しかし、従来の多重オブジェクト追跡(MOT)ベンチマークは、現実世界で遭遇する可能性のあるオブジェクトの多さをほとんど表さないいくつかのオブジェクトカテゴリにのみ依存している。
これにより、現在のMOTメソッドは、定義済みのオブジェクトカテゴリの小さなセットに限られる。
本稿では,新しいタスクであるオープンボキャブラリー・モット(open-vocabulary mot)に取り組み,事前定義されたトレーニングカテゴリを超えてトラッキングを評価することで,この制限に対処する。
さらに,任意のオブジェクトクラスを追跡可能なオープン語彙トラッカーであるOVTrackを開発した。
その設計は、第一に、知識蒸留による分類と連想の両方に視覚言語モデルを活用すること、第二に、拡散確率モデルから頑健な外観特徴学習のためのデータ幻覚戦略である。
その結果、非常にデータ効率のよいオープンボキャブラリトラッカーが、大規模な大語彙のTAOベンチマークに新たな最先端を設定でき、静的イメージのみにトレーニングされている。
プロジェクトページ: https://www.vis.xyz/pub/ovtrack/
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Open3DTrack: Towards Open-Vocabulary 3D Multi-Object Tracking [73.05477052645885]
オープンな語彙的3Dトラッキングを導入し、3Dトラッキングの範囲を広げて、定義済みのカテゴリを超えてオブジェクトを含める。
本稿では,オープン語彙機能を3次元トラッキングフレームワークに統合し,オブジェクトクラスが見えないように一般化する手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T15:48:42Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Siamese-DETR for Generic Multi-Object Tracking [16.853363984562602]
従来のマルチオブジェクト追跡(MOT)は、事前に定義されたクローズドセットカテゴリに属するオブジェクトを追跡することに限定されている。
Siamese-DETRは、所定のテキストプロンプトとテンプレート画像を用いて、事前に定義されたカテゴリを超えてオブジェクトを追跡する。
Siamese-DETRはGMOT-40データセット上の既存のMOTメソッドを大きなマージンで上回る。
論文 参考訳(メタデータ) (2023-10-27T03:32:05Z) - Zero-Shot Open-Vocabulary Tracking with Large Pre-Trained Models [28.304047711166056]
大規模事前訓練モデルでは、野生の2次元静的画像中の物体の検出とセグメンテーションの進歩が期待できる。
このような大規模なトレーニング済みの静的イメージモデルを,オープン語彙のビデオトラッキングに再利用することは可能だろうか?
本稿では,オープンボキャブラリ検出器,セグメンタ,高密度光流推定器を,任意のカテゴリの物体を2Dビデオで追跡・セグメント化するモデルに再構成する。
論文 参考訳(メタデータ) (2023-10-10T20:25:30Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。