論文の概要: The 2023 Video Similarity Dataset and Challenge
- arxiv url: http://arxiv.org/abs/2306.09489v1
- Date: Thu, 15 Jun 2023 20:34:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 15:47:36.648820
- Title: The 2023 Video Similarity Dataset and Challenge
- Title(参考訳): 2023年ビデオ類似度データセットと課題
- Authors: Ed Pizzi and Giorgos Kordopatis-Zilos and Hiral Patel and Gheorghe
Postelnicu and Sugosh Nagavara Ravindra and Akshay Gupta and Symeon
Papadopoulos and Giorgos Tolias and Matthijs Douze
- Abstract要約: この研究は、ビデオコピーの検出とローカライゼーションの問題に対するデータセット、ベンチマーク、課題を導入している。
このベンチマークは、これらの2つのタスクのメソッドを評価し、現実的なニードル・イン・ヘイスタック設定をシミュレートするように設計されている。
関連する課題は、2つの対応するトラックで構成され、それぞれに現実世界の設定を反映した制限がある。
- 参考スコア(独自算出の注目度): 21.948679979507638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work introduces a dataset, benchmark, and challenge for the problem of
video copy detection and localization. The problem comprises two distinct but
related tasks: determining whether a query video shares content with a
reference video ("detection"), and additionally temporally localizing the
shared content within each video ("localization"). The benchmark is designed to
evaluate methods on these two tasks, and simulates a realistic
needle-in-haystack setting, where the majority of both query and reference
videos are "distractors" containing no copied content. We propose a metric that
reflects both detection and localization accuracy. The associated challenge
consists of two corresponding tracks, each with restrictions that reflect
real-world settings. We provide implementation code for evaluation and
baselines. We also analyze the results and methods of the top submissions to
the challenge. The dataset, baseline methods and evaluation code is publicly
available and will be discussed at a dedicated CVPR'23 workshop.
- Abstract(参考訳): 本研究は,ビデオコピー検出とローカライズの問題に対するデータセット,ベンチマーク,課題を紹介する。
この問題は、クエリビデオが参照ビデオとコンテンツを共有するかどうかを決定する(検出)ことと、各ビデオ内の共有コンテンツを時間的にローカライズする(ローカライズ)という2つのタスクを含む。
このベンチマークは、これら2つのタスクのメソッドを評価するために設計されており、クエリと参照ビデオの両方がコピーされたコンテンツを含まない“ディストラクタ”であるような、現実的なニードル・イン・ヘイスタック設定をシミュレートする。
本研究では,検出精度と位置推定精度の両方を反映する指標を提案する。
関連する課題は、対応する2つのトラックから成り、それぞれが現実世界の設定を反映する制限を持つ。
評価とベースラインのための実装コードを提供する。
また,課題に対する上位提案の結果と方法についても分析した。
データセット、ベースラインメソッド、評価コードは公開されており、CVPR'23専用ワークショップで議論される予定である。
関連論文リスト
- MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval [57.891157692501345]
$textbfMultiVENT 2.0$は、大規模かつ多言語なイベント中心のビデオ検索ベンチマークである。
218,000以上のニュースビデオと、特定の世界イベントを対象とした3,906のクエリが提供されている。
予備的な結果は、最先端のビジョン言語モデルは、この課題にかなり苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-15T13:56:34Z) - Perception Test 2023: A Summary of the First Challenge And Outcome [67.0525378209708]
最初のパーセプションテストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2023と共に半日間のワークショップとして開催された。
目標は、最近提案されたPerception Testベンチマークで最先端のビデオモデルをベンチマークすることであった。
このレポートでは、タスク記述、メトリクス、ベースライン、結果について要約しています。
論文 参考訳(メタデータ) (2023-12-20T15:12:27Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Semantic Video Moments Retrieval at Scale: A New Task and a Baseline [6.997674465889922]
Semantic Video Moments Retrieval at Scale (SVMR)は、関連ビデオの検索とビデオクリップの再ローカライズを目的としている。
これらの課題に対処するため、我々は候補ビデオ検索の2段階ベースラインソリューションを提案し、それに続いて、新しいアテンションベースのクエリ参照セマンティックアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-15T22:46:22Z) - BURST: A Benchmark for Unifying Object Recognition, Segmentation and
Tracking in Video [58.71785546245467]
複数の既存のベンチマークには、ビデオ内のオブジェクトのトラッキングとセグメンテーションが含まれる。
異なるベンチマークデータセットとメトリクスを使用するため、それらの相互作用はほとんどありません。
高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTを提案する。
すべてのタスクは、同じデータと同等のメトリクスを使って評価されます。
論文 参考訳(メタデータ) (2022-09-25T01:27:35Z) - A Large-scale Comprehensive Dataset and Copy-overlap Aware Evaluation
Protocol for Segment-level Video Copy Detection [19.269688184942833]
本稿では,新しい包括的セグメントレベルのアノテーション付きビデオコピーデータセットであるVCSLを紹介する。
280k以上のローカライズされたコピーセグメントペアを含む、160k以上のリアルなビデオコピーペアを含んでいる。
収集されたビデオペア内のすべてのコピーされたセグメントを手作業で抽出し、正確に注釈付けされた開始と終了のタイムスタンプを添付する。
論文 参考訳(メタデータ) (2022-03-05T04:39:34Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - STEP: Segmenting and Tracking Every Pixel [107.23184053133636]
新しいベンチマークを示す: Segmenting and Tracking Every Pixel (STEP)
私たちの仕事は、空間領域と時間領域の両方で密な解釈を必要とする現実世界の設定で、このタスクをターゲットとする最初のものです。
性能を測定するために,新しい評価指標と追跡品質(STQ)を提案する。
論文 参考訳(メタデータ) (2021-02-23T18:43:02Z) - A Comprehensive Review on Recent Methods and Challenges of Video
Description [11.69687792533269]
ビデオ記述には、ビデオ内のアクション、イベント、オブジェクトの自然言語記述の生成が含まれる。
視覚障害者のための言語と視覚のギャップを埋めることで、映像記述の様々な応用がある。
過去10年間に、ビデオ記述、評価メトリクス、データセットのアプローチ/方法に関して、この分野でいくつかの研究が行われてきた。
論文 参考訳(メタデータ) (2020-11-30T13:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。