論文の概要: OVTrack: Open-Vocabulary Multiple Object Tracking
- arxiv url: http://arxiv.org/abs/2304.08408v1
- Date: Mon, 17 Apr 2023 16:20:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 14:23:29.934561
- Title: OVTrack: Open-Vocabulary Multiple Object Tracking
- Title(参考訳): ovtrack: オープンボキャブラリーマルチオブジェクトトラッキング
- Authors: Siyuan Li, Tobias Fischer, Lei Ke, Henghui Ding, Martin Danelljan,
Fisher Yu
- Abstract要約: OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
- 参考スコア(独自算出の注目度): 64.73379741435255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to recognize, localize and track dynamic objects in a scene is
fundamental to many real-world applications, such as self-driving and robotic
systems. Yet, traditional multiple object tracking (MOT) benchmarks rely only
on a few object categories that hardly represent the multitude of possible
objects that are encountered in the real world. This leaves contemporary MOT
methods limited to a small set of pre-defined object categories. In this paper,
we address this limitation by tackling a novel task, open-vocabulary MOT, that
aims to evaluate tracking beyond pre-defined training categories. We further
develop OVTrack, an open-vocabulary tracker that is capable of tracking
arbitrary object classes. Its design is based on two key ingredients: First,
leveraging vision-language models for both classification and association via
knowledge distillation; second, a data hallucination strategy for robust
appearance feature learning from denoising diffusion probabilistic models. The
result is an extremely data-efficient open-vocabulary tracker that sets a new
state-of-the-art on the large-scale, large-vocabulary TAO benchmark, while
being trained solely on static images. Project page:
https://www.vis.xyz/pub/ovtrack/
- Abstract(参考訳): シーン内の動的オブジェクトを認識し、ローカライズし、追跡する能力は、自動運転やロボットシステムなど、多くの現実世界のアプリケーションに基本である。
しかし、従来の多重オブジェクト追跡(MOT)ベンチマークは、現実世界で遭遇する可能性のあるオブジェクトの多さをほとんど表さないいくつかのオブジェクトカテゴリにのみ依存している。
これにより、現在のMOTメソッドは、定義済みのオブジェクトカテゴリの小さなセットに限られる。
本稿では,新しいタスクであるオープンボキャブラリー・モット(open-vocabulary mot)に取り組み,事前定義されたトレーニングカテゴリを超えてトラッキングを評価することで,この制限に対処する。
さらに,任意のオブジェクトクラスを追跡可能なオープン語彙トラッカーであるOVTrackを開発した。
その設計は、第一に、知識蒸留による分類と連想の両方に視覚言語モデルを活用すること、第二に、拡散確率モデルから頑健な外観特徴学習のためのデータ幻覚戦略である。
その結果、非常にデータ効率のよいオープンボキャブラリトラッカーが、大規模な大語彙のTAOベンチマークに新たな最先端を設定でき、静的イメージのみにトレーニングされている。
プロジェクトページ: https://www.vis.xyz/pub/ovtrack/
関連論文リスト
- Siamese-DETR for Generic Multi-Object Tracking [18.411089415721076]
従来のマルチオブジェクト追跡(MOT)は、事前に定義されたクローズドセットカテゴリに属するオブジェクトを追跡することに限定されている。
Siamese-DETRは、所定のテキストプロンプトとテンプレート画像を用いて、事前に定義されたカテゴリを超えてオブジェクトを追跡する。
Siamese-DETRはGMOT-40データセット上の既存のMOTメソッドを大きなマージンで上回る。
論文 参考訳(メタデータ) (2023-10-27T03:32:05Z) - Zero-Shot Open-Vocabulary Tracking with Large Pre-Trained Models [28.304047711166056]
大規模事前訓練モデルでは、野生の2次元静的画像中の物体の検出とセグメンテーションの進歩が期待できる。
このような大規模なトレーニング済みの静的イメージモデルを,オープン語彙のビデオトラッキングに再利用することは可能だろうか?
本稿では,オープンボキャブラリ検出器,セグメンタ,高密度光流推定器を,任意のカテゴリの物体を2Dビデオで追跡・セグメント化するモデルに再構成する。
論文 参考訳(メタデータ) (2023-10-10T20:25:30Z) - Few-shot Object Detection in Remote Sensing: Lifting the Curse of
Incompletely Annotated Novel Objects [23.171410277239534]
物体検出のための自己学習型FSOD (ST-FSOD) アプローチを提案する。
提案手法は,様々なFSOD設定における最先端性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2023-09-19T13:00:25Z) - Once Detected, Never Lost: Surpassing Human Performance in Offline LiDAR
based 3D Object Detection [50.959453059206446]
本稿では,高性能なオフラインLiDARによる3Dオブジェクト検出を実現することを目的とする。
まず、経験豊富な人間のアノテータが、トラック中心の視点でオブジェクトに注釈を付けるのを観察する。
従来のオブジェクト中心の視点ではなく,トラック中心の視点で高性能なオフライン検出器を提案する。
論文 参考訳(メタデータ) (2023-04-24T17:59:05Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Explicitly Modeling the Discriminability for Instance-Aware Visual
Object Tracking [13.311777431243296]
特徴表現の識別性を明らかにするための新しいインスタンス・アウェア・トラッカー (IAT) を提案する。
提案するIATには,ビデオレベルとオブジェクトレベルを含む2つのバリエーションを実装している。
どちらのバージョンも30FPSで動作しながら最先端のメソッドに対して主要な結果を得る。
論文 参考訳(メタデータ) (2021-10-28T11:24:01Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。