論文の概要: Video Similarity and Alignment Learning on Partial Video Copy Detection
- arxiv url: http://arxiv.org/abs/2108.01817v1
- Date: Wed, 4 Aug 2021 02:33:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 13:20:01.427404
- Title: Video Similarity and Alignment Learning on Partial Video Copy Detection
- Title(参考訳): 部分的ビデオコピー検出における映像類似性とアライメント学習
- Authors: Zhen Han, Xiangteng He, Mingqian Tang and Yiliang Lv
- Abstract要約: 本稿では,空間的類似性,時間的類似性,部分的アライメントを共同でモデル化するビデオ類似性とアライメント学習手法を提案する。
類似性とアライメント学習戦略により、VSALはVCDBコアデータセット上で最先端のF1スコアを達成する。
FIVR-200kデータセットにセグメントレベルのアノテーションを追加することで、部分的ビデオコピー検出とローカライゼーションの新しいベンチマークを構築する。
- 参考スコア(独自算出の注目度): 17.05845334166203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video copy detection methods generally measure video similarity
based on spatial similarities between key frames, neglecting the latent
similarity in temporal dimension, so that the video similarity is biased
towards spatial information. There are methods modeling unified video
similarity in an end-to-end way, but losing detailed partial alignment
information, which causes the incapability of copy segments localization. To
address the above issues, we propose the Video Similarity and Alignment
Learning (VSAL) approach, which jointly models spatial similarity, temporal
similarity and partial alignment. To mitigate the spatial similarity bias, we
model the temporal similarity as the mask map predicted from frame-level
spatial similarity, where each element indicates the probability of frame pair
lying right on the partial alignments. To further localize partial copies, the
step map is learned from the spatial similarity where the elements indicate
extending directions of the current partial alignments on the spatial-temporal
similarity map. Obtained from the mask map, the start points extend out into
partial optimal alignments following instructions of the step map. With the
similarity and alignment learning strategy, VSAL achieves the state-of-the-art
F1-score on VCDB core dataset. Furthermore, we construct a new benchmark of
partial video copy detection and localization by adding new segment-level
annotations for FIVR-200k dataset, where VSAL also achieves the best
performance, verifying its effectiveness in more challenging situations. Our
project is publicly available at https://pvcd-vsal.github.io/vsal/.
- Abstract(参考訳): 既存のビデオコピー検出法は、一般に、キーフレーム間の空間的類似性に基づいてビデオの類似度を測定し、時間次元における遅延的類似度を無視し、ビデオの類似度を空間的情報に偏らせる。
統合ビデオ類似性をエンドツーエンドにモデル化する方法はあるが、詳細な部分アライメント情報が失われ、コピーセグメントのローカライゼーションが不可能になる。
そこで本稿では,空間的類似性,時間的類似性,部分的アライメントを共同でモデル化するvsal(video similarity and alignment learning)手法を提案する。
空間的類似度バイアスを軽減するために,フレームレベルの空間的類似度から予測されるマスクマップと時間的類似度をモデル化する。
部分コピーをさらに局所化するために、ステップマップは、時空間類似マップ上の現在の部分アライメントの延長方向を示す要素が空間類似性から学習される。
マスクマップから得られたスタートポイントは、ステップマップの指示に従って、部分的最適アライメントに拡張される。
類似性とアライメント学習戦略により、VSALはVCDBコアデータセット上で最先端のF1スコアを達成する。
さらに、FIVR-200kデータセットにセグメントレベルのアノテーションを追加することで、部分的なビデオコピー検出とローカライゼーションの新たなベンチマークを構築し、VSALが最高のパフォーマンスを達成し、より困難な状況下での有効性を検証する。
私たちのプロジェクトはhttps://pvcd-vsal.github.io/vsal/で公開されている。
関連論文リスト
- Measuring similarity between embedding spaces using induced neighborhood graphs [10.056989400384772]
本稿では,ペアの項目表現の類似性を評価するための指標を提案する。
この結果から,類似度とゼロショット分類タスクの精度が類似度と相関していることが示唆された。
論文 参考訳(メタデータ) (2024-11-13T15:22:33Z) - Learning Spatial Similarity Distribution for Few-shot Object Counting [17.28147599627954]
Few-shot Object counting は、クエリイメージ内のオブジェクトの数を、与えられた模範画像と同じクラスに属するものとしてカウントすることを目的としている。
既存の手法では、2次元空間領域におけるクエリ画像と例間の類似性を計算し、回帰してカウント数を求める。
本稿では,空間的特徴の空間的構造を保存した少数のオブジェクトカウントのためのネットワーク学習型空間的類似度分布(SSD)を提案する。
論文 参考訳(メタデータ) (2024-05-20T04:15:59Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - TransVCL: Attention-enhanced Video Copy Localization Network with
Flexible Supervision [17.269652184918755]
コピーローカライゼーションは、ビデオ検索アプリケーションにおいて、コピーされた全セグメントを、ラベルなしのビデオのペアに正確にローカライズすることを目的としている。
従来の手法は、通常、入力されたビデオペアのフレームレベルの特徴間のコサイン類似性によって生成されるフレーム間類似性行列から始まる。
本稿では,初期フレームレベルの機能から直接最適化された注目度の高いビデオコピーローカライゼーションネットワークであるTransを提案する。
論文 参考訳(メタデータ) (2022-11-23T16:19:45Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。
IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。
提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-06-17T09:40:14Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - Locality-Aware Inter-and Intra-Video Reconstruction for Self-Supervised
Correspondence Learning [74.03651142051656]
局所性を考慮した映像間再構成フレームワークLIIRを開発した。
クロスビデオ親和性は、統合されたビデオ間およびビデオ内再構成方式において、追加の負のサンプルとして活用する。
論文 参考訳(メタデータ) (2022-03-27T15:46:42Z) - A Large-scale Comprehensive Dataset and Copy-overlap Aware Evaluation
Protocol for Segment-level Video Copy Detection [19.269688184942833]
本稿では,新しい包括的セグメントレベルのアノテーション付きビデオコピーデータセットであるVCSLを紹介する。
280k以上のローカライズされたコピーセグメントペアを含む、160k以上のリアルなビデオコピーペアを含んでいる。
収集されたビデオペア内のすべてのコピーされたセグメントを手作業で抽出し、正確に注釈付けされた開始と終了のタイムスタンプを添付する。
論文 参考訳(メタデータ) (2022-03-05T04:39:34Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。