論文の概要: OVT-B: A New Large-Scale Benchmark for Open-Vocabulary Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2410.17534v1
- Date: Wed, 23 Oct 2024 03:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:53.667578
- Title: OVT-B: A New Large-Scale Benchmark for Open-Vocabulary Multi-Object Tracking
- Title(参考訳): OVT-B:Open-Vocabulary Multi-Object Trackingのための大規模ベンチマーク
- Authors: Haiji Liang, Ruize Han,
- Abstract要約: 我々は,OVT-Bというオープン語彙多目的追跡のための大規模ベンチマークを構築した。
OVT-Bには1,048のカテゴリのオブジェクトと、637,608のバウンディングボックスアノテーションを備えた1,973のビデオが含まれている。
また,OVTの簡易かつ効果的なベースライン法を開発した。
- 参考スコア(独自算出の注目度): 9.613817359077503
- License:
- Abstract: Open-vocabulary object perception has become an important topic in artificial intelligence, which aims to identify objects with novel classes that have not been seen during training. Under this setting, open-vocabulary object detection (OVD) in a single image has been studied in many literature. However, open-vocabulary object tracking (OVT) from a video has been studied less, and one reason is the shortage of benchmarks. In this work, we have built a new large-scale benchmark for open-vocabulary multi-object tracking namely OVT-B. OVT-B contains 1,048 categories of objects and 1,973 videos with 637,608 bounding box annotations, which is much larger than the sole open-vocabulary tracking dataset, i.e., OVTAO-val dataset (200+ categories, 900+ videos). The proposed OVT-B can be used as a new benchmark to pave the way for OVT research. We also develop a simple yet effective baseline method for OVT. It integrates the motion features for object tracking, which is an important feature for MOT but is ignored in previous OVT methods. Experimental results have verified the usefulness of the proposed benchmark and the effectiveness of our method. We have released the benchmark to the public at https://github.com/Coo1Sea/OVT-B-Dataset.
- Abstract(参考訳): オープン・ボキャブラリ・オブジェクト認識は、トレーニング中に見たことのない新しいクラスを持つオブジェクトを識別することを目的として、人工知能において重要なトピックとなっている。
この設定の下では、単一画像中のオープン語彙オブジェクト検出(OVD)が多くの文献で研究されている。
しかしながら、ビデオからのオープンボキャブラリオブジェクトトラッキング(OVT)は、あまり研究されていないため、ベンチマークが不足している。
本研究では,OVT-Bというオープン語彙多目的追跡のための大規模ベンチマークを構築した。
OVT-Bには1,048のカテゴリのオブジェクトと、637,608のバウンディングボックスアノテーションを備えた1,973の動画が含まれており、これは唯一のオープン語彙追跡データセットであるOVTAO-valデータセット(200以上のカテゴリ、900以上のビデオ)よりもはるかに大きい。
提案されたOVT-Bは、OVT研究の道を開くための新しいベンチマークとして使用できる。
また,OVTの簡易かつ効果的なベースライン法を開発した。
これはMOTにとって重要な機能であるが、以前のOVTメソッドでは無視されているオブジェクト追跡のためのモーション機能を統合する。
提案手法の有効性と提案手法の有効性を実験的に検証した。
ベンチマークはhttps://github.com/Coo1Sea/OVT-B-Dataset.comで公開しています。
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning [13.667326007851674]
本稿では,CLIP-activated students-Teacher Open-vocabulary Object DetectionフレームワークであるCastDetを提案する。
我々のアプローチは、新しいオブジェクトの提案だけでなく、分類も促進します。
実験の結果,CastDetはより優れた開語彙検出性能が得られた。
論文 参考訳(メタデータ) (2023-11-20T10:26:04Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Few-shot Object Detection in Remote Sensing: Lifting the Curse of
Incompletely Annotated Novel Objects [23.171410277239534]
物体検出のための自己学習型FSOD (ST-FSOD) アプローチを提案する。
提案手法は,様々なFSOD設定における最先端性能を大きなマージンで向上させる。
論文 参考訳(メタデータ) (2023-09-19T13:00:25Z) - How to Evaluate the Generalization of Detection? A Benchmark for
Comprehensive Open-Vocabulary Detection [25.506346503624894]
我々は,9つのサブタスクを含むOVDEvalという新しいベンチマークを提案し,コモンセンス知識の評価を導入する。
データセットは、モデルによる視覚的および言語的入力の真の理解に挑戦する強烈なネガティブを提供するために、慎重に作成されます。
論文 参考訳(メタデータ) (2023-08-25T04:54:32Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z) - End-to-end Deep Object Tracking with Circular Loss Function for Rotated
Bounding Box [68.8204255655161]
Transformer Multi-Head Attentionアーキテクチャに基づく新しいエンドツーエンドのディープラーニング手法を紹介します。
また,境界ボックスの重なりと向きを考慮に入れた新しいタイプの損失関数を提案する。
論文 参考訳(メタデータ) (2020-12-17T17:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。