論文の概要: VastTrack: Vast Category Visual Object Tracking
- arxiv url: http://arxiv.org/abs/2403.03493v1
- Date: Wed, 6 Mar 2024 06:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 15:53:11.275561
- Title: VastTrack: Vast Category Visual Object Tracking
- Title(参考訳): vasttrack: 広大なカテゴリのビジュアルオブジェクトトラッキング
- Authors: Liang Peng, Junyuan Gao, Xinran Liu, Weihong Li, Shaohua Dong, Zhipeng
Zhang, Heng Fan, Libo Zhang
- Abstract要約: VastTrackと呼ばれる新しいベンチマークを導入し、より一般的なビジュアルトラッキングの開発を容易にする。
VastTrackは2,115クラスの対象オブジェクトをカバーしている。
VastTrackは50,610のシークエンスと4.2百万フレームを提供しており、ビデオ数に関する最大のベンチマークとなっている。
- 参考スコア(独自算出の注目度): 39.61339408722333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a novel benchmark, dubbed VastTrack, towards
facilitating the development of more general visual tracking via encompassing
abundant classes and videos. VastTrack possesses several attractive properties:
(1) Vast Object Category. In particular, it covers target objects from 2,115
classes, largely surpassing object categories of existing popular benchmarks
(e.g., GOT-10k with 563 classes and LaSOT with 70 categories). With such vast
object classes, we expect to learn more general object tracking. (2) Larger
scale. Compared with current benchmarks, VastTrack offers 50,610 sequences with
4.2 million frames, which makes it to date the largest benchmark regarding the
number of videos, and thus could benefit training even more powerful visual
trackers in the deep learning era. (3) Rich Annotation. Besides conventional
bounding box annotations, VastTrack also provides linguistic descriptions for
the videos. The rich annotations of VastTrack enables development of both the
vision-only and the vision-language tracking. To ensure precise annotation, all
videos are manually labeled with multiple rounds of careful inspection and
refinement. To understand performance of existing trackers and to provide
baselines for future comparison, we extensively assess 25 representative
trackers. The results, not surprisingly, show significant drops compared to
those on current datasets due to lack of abundant categories and videos from
diverse scenarios for training, and more efforts are required to improve
general tracking. Our VastTrack and all the evaluation results will be made
publicly available https://github.com/HengLan/VastTrack.
- Abstract(参考訳): 本稿では,豊富なクラスや動画を包含することで,より汎用的なビジュアルトラッキングの開発を容易にするための新しいベンチマークである vasttrack を提案する。
VastTrackにはいくつかの魅力的な特性がある。
特に、2,115クラスの対象オブジェクトをカバーしており、既存の一般的なベンチマークのオブジェクトカテゴリ(563クラスのGOT-10k、70のカテゴリのLaSOTなど)を大きく上回っている。
このような広大なオブジェクトクラスでは、より一般的なオブジェクト追跡を学ぼうと考えています。
(2)大規模化。
現行のベンチマークと比較すると、VastTrackは50,610のシーケンスと420万フレームを提供しており、ビデオ数に関する最大のベンチマークとなっているため、ディープラーニング時代のより強力なビジュアルトラッカーのトレーニングに役立てることができる。
(3)リッチアノテーション。
従来のバウンディングボックスアノテーションに加えて、s vasttrackはビデオの言語記述も提供している。
VastTrackの豊富なアノテーションは、視覚のみと視覚言語追跡の両方の開発を可能にする。
正確なアノテーションを確保するために、すべてのビデオに複数の注意深い検査と改善のラウンドを手動でラベル付けする。
既存のトラッカーの性能を理解し、将来の比較のためのベースラインを提供するため、25の代表トラッカーを広範囲に評価する。
その結果は、トレーニングのさまざまなシナリオから豊富なカテゴリやビデオが欠如していることから、現在のデータセットと比較して大きな低下を示しており、一般的なトラッキングを改善するにはより多くの努力が必要である。
vasttrackとその評価結果はすべて、https://github.com/henglan/vasttrackで公開される予定だ。
関連論文リスト
- Tracking Reflected Objects: A Benchmark [12.770787846444406]
我々は、反射オブジェクトのトラッキングに特化したベンチマークであるTROを紹介します。
TROは、約70,000フレームの200のシーケンスを含み、それぞれにバウンディングボックスを慎重にアノテートする。
より強力なベースラインを提供するために,階層的特徴を用いて性能を向上させる新しいトラッカーであるHiP-HaTrackを提案する。
論文 参考訳(メタデータ) (2024-07-07T02:22:45Z) - Tracking with Human-Intent Reasoning [64.69229729784008]
この作業では、新しいトラッキングタスクであるインストラクショントラッキングを提案している。
ビデオフレーム内で自動的にトラッキングを実行するようにトラッカーに要求する暗黙の追跡命令を提供する。
TrackGPTは複雑な推論ベースの追跡を行うことができる。
論文 参考訳(メタデータ) (2023-12-29T03:22:18Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Cannot See the Forest for the Trees: Aggregating Multiple Viewpoints to
Better Classify Objects in Videos [36.28269135795851]
本稿では,トラックレットに含まれる複数の視点から情報を集約することで,トラックレットの分類精度を向上させる集合分類器を提案する。
ResNet-101上のQDTrackにメソッドをアタッチするだけで、TAOの検証とテストセットで19.9%と15.7%のTrackAP_50という新しい最先端を実現できます。
論文 参考訳(メタデータ) (2022-06-05T07:51:58Z) - DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse
Motion [56.1428110894411]
マルチヒューマントラッキングのための大規模データセットを提案する。
データセットには、主にグループダンスビデオが含まれているので、私たちはそれを"DanceTrack"と名付けます。
当社のデータセット上でいくつかの最先端トラッカーをベンチマークし、既存のベンチマークと比較した場合、DanceTrackの大幅なパフォーマンス低下を観察します。
論文 参考訳(メタデータ) (2021-11-29T16:49:06Z) - LaSOT: A High-quality Large-scale Single Object Tracking Benchmark [67.96196486540497]
高品質な大規模オブジェクト追跡ベンチマークであるLaSOTを提案する。
LaSOTには85のオブジェクトクラスがあり、合計で1,550のフレームが387万フレーム以上ある。
それぞれのビデオフレームは、慎重に手動でバウンディングボックスでアノテートされます。これにより、LaSOTは、私たちの知る限り、最も高密度にアノテートされたトラッキングベンチマークになります。
論文 参考訳(メタデータ) (2020-09-08T00:31:56Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。