論文の概要: BURST: A Benchmark for Unifying Object Recognition, Segmentation and
Tracking in Video
- arxiv url: http://arxiv.org/abs/2209.12118v1
- Date: Sun, 25 Sep 2022 01:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:16:49.825259
- Title: BURST: A Benchmark for Unifying Object Recognition, Segmentation and
Tracking in Video
- Title(参考訳): BURST:ビデオにおけるオブジェクト認識、セグメンテーション、追跡の統合のためのベンチマーク
- Authors: Ali Athar, Jonathon Luiten, Paul Voigtlaender, Tarasha Khurana, Achal
Dave, Bastian Leibe, Deva Ramanan
- Abstract要約: 複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。
異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。
高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。
すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
- 参考スコア(独自算出の注目度): 58.71785546245467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple existing benchmarks involve tracking and segmenting objects in video
e.g., Video Object Segmentation (VOS) and Multi-Object Tracking and
Segmentation (MOTS), but there is little interaction between them due to the
use of disparate benchmark datasets and metrics (e.g. J&F, mAP, sMOTSA). As a
result, published works usually target a particular benchmark, and are not
easily comparable to each another. We believe that the development of
generalized methods that can tackle multiple tasks requires greater cohesion
among these research sub-communities. In this paper, we aim to facilitate this
by proposing BURST, a dataset which contains thousands of diverse videos with
high-quality object masks, and an associated benchmark with six tasks involving
object tracking and segmentation in video. All tasks are evaluated using the
same data and comparable metrics, which enables researchers to consider them in
unison, and hence, more effectively pool knowledge from different methods
across different tasks. Additionally, we demonstrate several baselines for all
tasks and show that approaches for one task can be applied to another with a
quantifiable and explainable performance difference. Dataset annotations and
evaluation code is available at: https://github.com/Ali2500/BURST-benchmark.
- Abstract(参考訳): 既存の複数のベンチマークでは、ビデオオブジェクトセグメンテーション(VOS)やマルチオブジェクト追跡とセグメンテーション(MOTS)など、ビデオ内のオブジェクトの追跡とセグメンテーションを行うが、異なるベンチマークデータセットとメトリクス(J&F、mAP、sMOTSAなど)を使用するため、それらの相互作用はほとんどない。
その結果、出版物は通常特定のベンチマークをターゲットにしており、互いに簡単に比較できない。
我々は,複数の課題に対処できる一般化手法の開発には,これらの研究サブコミュニティの間により大きな結束が必要であると考えている。
本稿では、高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTと、オブジェクト追跡とビデオ内のセグメンテーションを含む6つのタスクを関連づけたベンチマークを提案する。
すべてのタスクは、同じデータと同等のメトリクスを使用して評価されるため、研究者はそれらを一斉に考えることができ、それによって異なるタスクの異なるメソッドからの知識をより効果的にプールすることができる。
さらに、全てのタスクに対するいくつかのベースラインを示し、あるタスクに対するアプローチを定量的かつ説明可能な性能差で別のタスクに適用できることを示します。
Datasetアノテーションと評価コードは、https://github.com/Ali2500/BURST-benchmark.comで公開されている。
関連論文リスト
- Matching Anything by Segmenting Anything [109.2507425045143]
我々は、堅牢なインスタンスアソシエーション学習のための新しい手法であるMASAを提案する。
MASAは、徹底的なデータ変換を通じてインスタンスレベルの対応を学習する。
完全アノテートされたドメイン内ビデオシーケンスでトレーニングした最先端の手法よりも,MASAの方が優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:20:07Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - ISAR: A Benchmark for Single- and Few-Shot Object Instance Segmentation
and Re-Identification [24.709695178222862]
単発および少数発のオブジェクト識別のためのベンチマークおよびベースライン手法であるISARを提案する。
地層構造意味アノテーションを用いた半合成的ビデオシーケンスデータセットを提供する。
我々のベンチマークは、マルチオブジェクト追跡、ビデオオブジェクト、再識別の新たな研究動向と一致している。
論文 参考訳(メタデータ) (2023-11-05T18:51:33Z) - CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking
and Segmentation [31.167405688707575]
ビデオフレーム上でのインスタンスレベルの視覚分析のためのフレームワークを提案する。
オブジェクト検出、インスタンスセグメンテーション、マルチオブジェクトトラッキングを同時に行うことができる。
提案手法は, KITTI MOTS と MOTS Challenge のデータセットを用いて広範に評価する。
論文 参考訳(メタデータ) (2023-11-02T04:32:24Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Associating Objects with Transformers for Video Object Segmentation [74.51719591192787]
本稿では,複数のオブジェクトを一様に一致・復号化するためのAssociating Objects with Transformers (AOT)アプローチを提案する。
AOTは複数のターゲットを同一の高次元埋め込み空間に関連付けるための識別機構を用いる。
第3回大規模ビデオオブジェクトチャレンジでは1位にランクインした。
論文 参考訳(メタデータ) (2021-06-04T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。