論文の概要: TAO: A Large-Scale Benchmark for Tracking Any Object
- arxiv url: http://arxiv.org/abs/2005.10356v1
- Date: Wed, 20 May 2020 21:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 05:49:13.817551
- Title: TAO: A Large-Scale Benchmark for Tracking Any Object
- Title(参考訳): TAO:任意のオブジェクトを追跡するための大規模ベンチマーク
- Authors: Achal Dave, Tarasha Khurana, Pavel Tokmakov, Cordelia Schmid, Deva
Ramanan
- Abstract要約: オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
- 参考スコア(独自算出の注目度): 95.87310116010185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For many years, multi-object tracking benchmarks have focused on a handful of
categories. Motivated primarily by surveillance and self-driving applications,
these datasets provide tracks for people, vehicles, and animals, ignoring the
vast majority of objects in the world. By contrast, in the related field of
object detection, the introduction of large-scale, diverse datasets (e.g.,
COCO) have fostered significant progress in developing highly robust solutions.
To bridge this gap, we introduce a similarly diverse dataset for Tracking Any
Object (TAO). It consists of 2,907 high resolution videos, captured in diverse
environments, which are half a minute long on average. Importantly, we adopt a
bottom-up approach for discovering a large vocabulary of 833 categories, an
order of magnitude more than prior tracking benchmarks. To this end, we ask
annotators to label objects that move at any point in the video, and give names
to them post factum. Our vocabulary is both significantly larger and
qualitatively different from existing tracking datasets. To ensure scalability
of annotation, we employ a federated approach that focuses manual effort on
labeling tracks for those relevant objects in a video (e.g., those that move).
We perform an extensive evaluation of state-of-the-art trackers and make a
number of important discoveries regarding large-vocabulary tracking in an
open-world. In particular, we show that existing single- and multi-object
trackers struggle when applied to this scenario in the wild, and that
detection-based, multi-object trackers are in fact competitive with
user-initialized ones. We hope that our dataset and analysis will boost further
progress in the tracking community.
- Abstract(参考訳): 長年にわたり、マルチオブジェクトトラッキングベンチマークはいくつかのカテゴリに焦点を当ててきた。
主に監視と自動運転のアプリケーションによって動機付けられ、これらのデータセットは人、車、動物のためのトラックを提供し、世界のほとんどのオブジェクトを無視している。
対照的に、オブジェクト検出の関連分野において、大規模で多様なデータセット(例えばCOCO)の導入は、高度に堅牢なソリューションの開発において大きな進歩をもたらした。
このギャップを埋めるために、同様の多様なTracking Any Object (TAO)データセットを導入します。
ビデオは2,907本で、さまざまな環境で撮影され、平均して30分の長さだ。
重要なことは,従来の追跡ベンチマークよりも桁違いに大きい853カテゴリの語彙を発見するためにボトムアップアプローチを採用することである。
この目的のために、アノテータにビデオの任意の時点で動くオブジェクトにラベルを付け、ファクトラムに名前を付けるよう依頼する。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
アノテーションのスケーラビリティを確保するために、ビデオ内の関連するオブジェクト(例えば、移動しているオブジェクト)のトラックのラベル付けに手作業で集中するフェデレーションアプローチを採用しています。
我々は,最先端トラッカの広範な評価を行い,オープンワールドにおける大規模ボキャブラリー追跡に関する重要な発見を数多く行う。
特に,既存のシングルオブジェクトトラッカーとマルチオブジェクトトラッカーは,このシナリオに適用した場合に困難であり,検出ベースのマルチオブジェクトトラッカーは実際にユーザ初期化トラッカーと競合していることを示す。
当社のデータセットと分析が,トラッキングコミュニティのさらなる進展を促進することを願っています。
関連論文リスト
- Tracking Reflected Objects: A Benchmark [12.770787846444406]
我々は、反射オブジェクトのトラッキングに特化したベンチマークであるTROを紹介します。
TROは、約70,000フレームの200のシーケンスを含み、それぞれにバウンディングボックスを慎重にアノテートする。
より強力なベースラインを提供するために,階層的特徴を用いて性能を向上させる新しいトラッカーであるHiP-HaTrackを提案する。
論文 参考訳(メタデータ) (2024-07-07T02:22:45Z) - Iterative Scale-Up ExpansionIoU and Deep Features Association for
Multi-Object Tracking in Sports [26.33239898091364]
本稿では,スポーツシナリオに対するDeep ExpansionIoU (Deep-EIoU) という,オンラインかつ堅牢な多対象追跡手法を提案する。
従来の手法とは異なり、カルマンフィルタの使用を放棄し、スポーツシナリオにおける拡張IoUの反復的なスケールアップと深い特徴を活用して、ロバストなトラッキングを行う。
提案手法は,SportsMOTデータセットで77.2%,SportsNet-Trackingデータセットで85.4%を達成し,不規則な動き物体の追跡に顕著な効果を示した。
論文 参考訳(メタデータ) (2023-06-22T17:47:08Z) - DIVOTrack: A Novel Dataset and Baseline Method for Cross-View
Multi-Object Tracking in DIVerse Open Scenes [74.64897845999677]
歩行者が密集したDIVerse Openのシーンを対象とした,新しいクロスビュー多目的追跡データセットを提案する。
私たちのDIVOTrackには15の異なるシナリオと953のクロスビュートラックがあります。
さらに,クロスモット(CrossMOT)という統合型共同検出・クロスビュートラッキングフレームワークを用いた新しいベースラインクロスビュートラッキング手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T14:10:42Z) - Beyond SOT: Tracking Multiple Generic Objects at Once [141.36900362724975]
ジェネリックオブジェクト追跡(ジェネリックオブジェクト追跡、英: Generic Object Tracking、GOT)は、ビデオの最初のフレームでボックスをバウンディングすることによって指定されたターゲットオブジェクトを追跡する問題である。
大規模GOTベンチマークであるLaGOTを導入し,複数のアノテート対象オブジェクトをシーケンス毎に含む。
提案手法は単一オブジェクトのGOTデータセットに対して高い競合性を実現し,TrackingNet上での新たな技術状態が84.4%の成功率で設定されている。
論文 参考訳(メタデータ) (2022-12-22T17:59:19Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Cannot See the Forest for the Trees: Aggregating Multiple Viewpoints to
Better Classify Objects in Videos [36.28269135795851]
本稿では,トラックレットに含まれる複数の視点から情報を集約することで,トラックレットの分類精度を向上させる集合分類器を提案する。
ResNet-101上のQDTrackにメソッドをアタッチするだけで、TAOの検証とテストセットで19.9%と15.7%のTrackAP_50という新しい最先端を実現できます。
論文 参考訳(メタデータ) (2022-06-05T07:51:58Z) - DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse
Motion [56.1428110894411]
マルチヒューマントラッキングのための大規模データセットを提案する。
データセットには、主にグループダンスビデオが含まれているので、私たちはそれを"DanceTrack"と名付けます。
当社のデータセット上でいくつかの最先端トラッカーをベンチマークし、既存のベンチマークと比較した場合、DanceTrackの大幅なパフォーマンス低下を観察します。
論文 参考訳(メタデータ) (2021-11-29T16:49:06Z) - Learning to Track with Object Permanence [61.36492084090744]
共同物体の検出と追跡のためのエンドツーエンドのトレーニング可能なアプローチを紹介します。
私たちのモデルは、合成データと実データで共同トレーニングされ、KITTIおよびMOT17データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2021-03-26T04:43:04Z) - Discriminative Appearance Modeling with Multi-track Pooling for
Real-time Multi-object Tracking [20.66906781151]
マルチオブジェクトトラッキングでは、トラッカーはそのメモリ内にシーンの各オブジェクトの外観と動き情報を保持する。
多くのアプローチは、それぞれのターゲットを分離してモデル化し、シーン内のすべてのターゲットを使用してメモリを共同で更新する能力がない。
オンライン上でハードトラッキングのエピソードを生成するマルチトラックプーリングに適応したトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-01-28T18:12:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。