論文の概要: LaSOT: A High-quality Large-scale Single Object Tracking Benchmark
- arxiv url: http://arxiv.org/abs/2009.03465v3
- Date: Sat, 12 Sep 2020 03:53:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 21:11:25.368898
- Title: LaSOT: A High-quality Large-scale Single Object Tracking Benchmark
- Title(参考訳): LaSOT: 高品質な大規模オブジェクト追跡ベンチマーク
- Authors: Heng Fan, Hexin Bai, Liting Lin, Fan Yang, Peng Chu, Ge Deng, Sijia
Yu, Harshit, Mingzhen Huang, Juehuan Liu, Yong Xu, Chunyuan Liao, Lin Yuan,
Haibin Ling
- Abstract要約: 高品質な大規模オブジェクト追跡ベンチマークであるLaSOTを提案する。
LaSOTには85のオブジェクトクラスがあり、合計で1,550のフレームが387万フレーム以上ある。
それぞれのビデオフレームは、慎重に手動でバウンディングボックスでアノテートされます。これにより、LaSOTは、私たちの知る限り、最も高密度にアノテートされたトラッキングベンチマークになります。
- 参考スコア(独自算出の注目度): 67.96196486540497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite great recent advances in visual tracking, its further development,
including both algorithm design and evaluation, is limited due to lack of
dedicated large-scale benchmarks. To address this problem, we present LaSOT, a
high-quality Large-scale Single Object Tracking benchmark. LaSOT contains a
diverse selection of 85 object classes, and offers 1,550 totaling more than
3.87 million frames. Each video frame is carefully and manually annotated with
a bounding box. This makes LaSOT, to our knowledge, the largest densely
annotated tracking benchmark. Our goal in releasing LaSOT is to provide a
dedicated high quality platform for both training and evaluation of trackers.
The average video length of LaSOT is around 2,500 frames, where each video
contains various challenge factors that exist in real world video footage,such
as the targets disappearing and re-appearing. These longer video lengths allow
for the assessment of long-term trackers. To take advantage of the close
connection between visual appearance and natural language, we provide language
specification for each video in LaSOT. We believe such additions will allow for
future research to use linguistic features to improve tracking. Two protocols,
full-overlap and one-shot, are designated for flexible assessment of trackers.
We extensively evaluate 48 baseline trackers on LaSOT with in-depth analysis,
and results reveal that there still exists significant room for improvement.
The complete benchmark, tracking results as well as analysis are available at
http://vision.cs.stonybrook.edu/~lasot/.
- Abstract(参考訳): 近年のビジュアルトラッキングの進歩にもかかわらず、アルゴリズムの設計と評価を含むさらなる開発は、大規模なベンチマークが不足しているために制限されている。
この問題に対処するため,高品質な大規模オブジェクト追跡ベンチマークLaSOTを提案する。
LaSOTには85のオブジェクトクラスがあり、合計で1,550のフレームが387万フレーム以上ある。
各ビデオフレームは、バウンディングボックスで慎重に手動で注釈付けされる。
これによってLaSOTは,私たちの知る限り,最も高密度に注釈付けされたトラッキングベンチマークになります。
LaSOTのリリースの目標は、トラッカーのトレーニングと評価の両面において、高品質なプラットフォームを提供することです。
lasotの平均ビデオ長は約2500フレームで、それぞれのビデオには、ターゲットが消えて再現れるなど、現実世界のビデオ映像に存在するさまざまな課題要素が含まれている。
これらの長いビデオ長は、長期トラッカーの評価を可能にする。
視覚的な外観と自然言語との密接な関係を利用するため,lasotの各ビデオに言語仕様を提供する。
このような追加により、将来の研究は言語機能を使って追跡を改善することができると考えています。
フルオーバーラップとワンショットの2つのプロトコルは、トラッカーの柔軟な評価のために指定されている。
我々は,lasotの48のベースライントラッカを詳細な分析によって広範囲に評価し,改善の余地があることを明らかにした。
完全なベンチマーク、追跡結果、分析はhttp://vision.cs.stonybrook.edu/~lasot/で確認できる。
関連論文リスト
- DTVLT: A Multi-modal Diverse Text Benchmark for Visual Language Tracking Based on LLM [23.551036494221222]
我々は,VLTとSOTの5つのベンチマークに基づいて,多種多様なテキストを用いた新しい視覚言語追跡ベンチマークDTVLTを提案する。
セマンティック情報の範囲と密度を考慮して、ベンチマークで4つのテキストを提供する。
我々はDTVLTの総合的な実験分析を行い、多種多様なテキストが追跡性能に与える影響を評価する。
論文 参考訳(メタデータ) (2024-10-03T13:57:07Z) - VastTrack: Vast Category Visual Object Tracking [39.61339408722333]
VastTrackと呼ばれる新しいベンチマークを導入し、より一般的なビジュアルトラッキングの開発を容易にする。
VastTrackは2,115クラスの対象オブジェクトをカバーしている。
VastTrackは50,610のシークエンスと4.2百万フレームを提供しており、ビデオ数に関する最大のベンチマークとなっている。
論文 参考訳(メタデータ) (2024-03-06T06:39:43Z) - Tracking Anything in High Quality [63.63653185865726]
HQTrackは高品質なビデオ追跡のためのフレームワークだ。
ビデオマルチオブジェクトセグメンタ(VMOS)とマスクリファインダ(MR)で構成されている。
論文 参考訳(メタデータ) (2023-07-26T06:19:46Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - OmniTracker: Unifying Object Tracking by Tracking-with-Detection [119.51012668709502]
OmniTrackerは、完全に共有されたネットワークアーキテクチャ、モデルウェイト、推論パイプラインですべてのトラッキングタスクを解決するために提供されている。
LaSOT、TrackingNet、DAVIS16-17、MOT17、MOTS20、YTVIS19を含む7つの追跡データセットの実験は、OmniTrackerがタスク固有の追跡モデルと統合された追跡モデルの両方よりも、オンパーまたはそれ以上の結果を達成することを示した。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z) - Cannot See the Forest for the Trees: Aggregating Multiple Viewpoints to
Better Classify Objects in Videos [36.28269135795851]
本稿では,トラックレットに含まれる複数の視点から情報を集約することで,トラックレットの分類精度を向上させる集合分類器を提案する。
ResNet-101上のQDTrackにメソッドをアタッチするだけで、TAOの検証とテストセットで19.9%と15.7%のTrackAP_50という新しい最先端を実現できます。
論文 参考訳(メタデータ) (2022-06-05T07:51:58Z) - Unified Transformer Tracker for Object Tracking [58.65901124158068]
異なるシナリオにおけるトラッキング問題に1つのパラダイムで対処するために,UTT(Unified Transformer Tracker)を提案する。
SOT(Single Object Tracking)とMOT(Multiple Object Tracking)の両方を対象とするトラックトランスフォーマーを開発した。
論文 参考訳(メタデータ) (2022-03-29T01:38:49Z) - Towards More Flexible and Accurate Object Tracking with Natural
Language: Algorithms and Benchmark [46.691218019908746]
自然言語の仕様による追跡は、その言語記述に基づいてビデオシーケンス内のターゲットオブジェクトを見つけることを目的とした新しい上昇研究トピックです。
大規模データセットを含む,言語別追跡に特化した新たなベンチマークを提案する。
また,TNL2Kには,対象追跡タスク,すなわち対向サンプルとモダリティスイッチの2つの新しい課題を導入する。
論文 参考訳(メタデータ) (2021-03-31T00:57:32Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。