論文の概要: A Large-scale Comprehensive Dataset and Copy-overlap Aware Evaluation
Protocol for Segment-level Video Copy Detection
- arxiv url: http://arxiv.org/abs/2203.02654v1
- Date: Sat, 5 Mar 2022 04:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 16:16:36.060401
- Title: A Large-scale Comprehensive Dataset and Copy-overlap Aware Evaluation
Protocol for Segment-level Video Copy Detection
- Title(参考訳): セグメントレベルのビデオコピー検出のための大規模総合データセットとコピーオーバラップ認識評価プロトコル
- Authors: Sifeng He, Xudong Yang, Chen Jiang, Gang Liang, Wei Zhang, Tan Pan,
Qing Wang, Furong Xu, Chunguang Li, Jingxiong Liu, Hui Xu, Kaiming Huang,
Yuan Cheng, Feng Qian, Xiaobo Zhang, Lei Yang
- Abstract要約: 本稿では,新しい包括的セグメントレベルのアノテーション付きビデオコピーデータセットであるVCSLを紹介する。
280k以上のローカライズされたコピーセグメントペアを含む、160k以上のリアルなビデオコピーペアを含んでいる。
収集されたビデオペア内のすべてのコピーされたセグメントを手作業で抽出し、正確に注釈付けされた開始と終了のタイムスタンプを添付する。
- 参考スコア(独自算出の注目度): 19.269688184942833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce VCSL (Video Copy Segment Localization), a new
comprehensive segment-level annotated video copy dataset. Compared with
existing copy detection datasets restricted by either video-level annotation or
small-scale, VCSL not only has two orders of magnitude more segment-level
labelled data, with 160k realistic video copy pairs containing more than 280k
localized copied segment pairs, but also covers a variety of video categories
and a wide range of video duration. All the copied segments inside each
collected video pair are manually extracted and accompanied by precisely
annotated starting and ending timestamps. Alongside the dataset, we also
propose a novel evaluation protocol that better measures the prediction
accuracy of copy overlapping segments between a video pair and shows improved
adaptability in different scenarios. By benchmarking several baseline and
state-of-the-art segment-level video copy detection methods with the proposed
dataset and evaluation metric, we provide a comprehensive analysis that
uncovers the strengths and weaknesses of current approaches, hoping to open up
promising directions for future works. The VCSL dataset, metric and benchmark
codes are all publicly available at https://github.com/alipay/VCSL.
- Abstract(参考訳): 本稿では,新しい包括的セグメントレベルアノテートビデオコピーデータセット vcsl (video copy segment localization) を紹介する。
ビデオレベルのアノテーションまたは小規模で制限された既存のコピー検出データセットと比較して、VCSLは2桁以上のセグメントレベルのラベル付きデータを持つだけでなく、280k以上のローカライズされたコピーセグメントペアを含む160kのリアルなビデオコピーペアを持つとともに、様々なビデオカテゴリと幅広いビデオ持続時間もカバーしている。
収集されたビデオペア内の全てのコピーセグメントは手動で抽出され、正確に注釈付き開始および終了タイムスタンプが添付される。
また,データセットとともに,ビデオペア間で重複するセグメントの予測精度を向上し,異なるシナリオにおける適応性の向上を示す新しい評価プロトコルを提案する。
提案したデータセットと評価基準を用いて,いくつかのベースラインと最先端のセグメントレベルのビデオコピー検出手法をベンチマークすることにより,現在のアプローチの長所と短所を明らかにする包括的分析を行い,今後の作業に期待できる方向性を開拓する。
VCSLデータセット、メトリック、ベンチマークコードはhttps://github.com/alipay/VCSLで公開されている。
関連論文リスト
- Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - TransVCL: Attention-enhanced Video Copy Localization Network with
Flexible Supervision [17.269652184918755]
コピーローカライゼーションは、ビデオ検索アプリケーションにおいて、コピーされた全セグメントを、ラベルなしのビデオのペアに正確にローカライズすることを目的としている。
従来の手法は、通常、入力されたビデオペアのフレームレベルの特徴間のコサイン類似性によって生成されるフレーム間類似性行列から始まる。
本稿では,初期フレームレベルの機能から直接最適化された注目度の高いビデオコピーローカライゼーションネットワークであるTransを提案する。
論文 参考訳(メタデータ) (2022-11-23T16:19:45Z) - Video Similarity and Alignment Learning on Partial Video Copy Detection [17.05845334166203]
本稿では,空間的類似性,時間的類似性,部分的アライメントを共同でモデル化するビデオ類似性とアライメント学習手法を提案する。
類似性とアライメント学習戦略により、VSALはVCDBコアデータセット上で最先端のF1スコアを達成する。
FIVR-200kデータセットにセグメントレベルのアノテーションを追加することで、部分的ビデオコピー検出とローカライゼーションの新しいベンチマークを構築する。
論文 参考訳(メタデータ) (2021-08-04T02:33:32Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Video Instance Segmentation with a Propose-Reduce Paradigm [68.59137660342326]
ビデオインスタンスセグメンテーション(VIS)は、ビデオ内の各フレームごとに定義されたクラスのすべてのインスタンスをセグメンテーションし、関連付けることを目的とする。
先行メソッドは通常、フレームまたはクリップのセグメンテーションを最初に取得し、追跡またはマッチングによって不完全な結果をマージします。
新しいパラダイムであるPropose-Reduceを提案し、入力ビデオの完全なシーケンスを1ステップで生成します。
論文 参考訳(メタデータ) (2021-03-25T10:58:36Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。