論文の概要: VPN: Video Provenance Network for Robust Content Attribution
- arxiv url: http://arxiv.org/abs/2109.10038v1
- Date: Tue, 21 Sep 2021 09:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 22:05:46.123373
- Title: VPN: Video Provenance Network for Robust Content Attribution
- Title(参考訳): VPN:ロバストコンテンツアトリビューションのためのビデオプロバンスネットワーク
- Authors: Alexander Black, Tu Bui, Simon Jenni, Vishy Swaminathan, John
Collomosse
- Abstract要約: VPN - オンラインで共有されているビデオから出典情報を復元するコンテンツ属性手法を提案する。
完全長あるいは切り離されたビデオクエリを用いて,このようなビデオのマッチングに頑健な検索埋め込みを学習する。
一度ビデオクリップの信頼できるデータベースにマッチすると、そのクリップの出所に関する関連情報がユーザに提示される。
- 参考スコア(独自算出の注目度): 72.12494245048504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present VPN - a content attribution method for recovering provenance
information from videos shared online. Platforms, and users, often transform
video into different quality, codecs, sizes, shapes, etc. or slightly edit its
content such as adding text or emoji, as they are redistributed online. We
learn a robust search embedding for matching such video, invariant to these
transformations, using full-length or truncated video queries. Once matched
against a trusted database of video clips, associated information on the
provenance of the clip is presented to the user. We use an inverted index to
match temporal chunks of video using late-fusion to combine both visual and
audio features. In both cases, features are extracted via a deep neural network
trained using contrastive learning on a dataset of original and augmented video
clips. We demonstrate high accuracy recall over a corpus of 100,000 videos.
- Abstract(参考訳): VPN - オンラインで共有されているビデオから出典情報を復元するコンテンツ属性手法を提案する。
プラットフォームやユーザーは、しばしば動画を異なる品質、コーデック、サイズ、形などに変えたり、オンラインで再配布されているテキストや絵文字などのコンテンツを少し編集したりする。
完全長の動画クエリや切り離されたビデオクエリを用いて,このようなビデオにマッチする堅牢な検索埋め込みを学習する。
一度ビデオクリップの信頼できるデータベースにマッチすると、そのクリップの出所に関する関連情報がユーザに提示される。
インバートインデックスを用いてビデオの時間的チャンクをレイトフュージョンでマッチングし、視覚的特徴と音声的特徴を組み合わせる。
どちらの場合も、特徴は、オリジナルのビデオクリップと強化ビデオクリップのデータセットでコントラスト学習を使用してトレーニングされたディープニューラルネットワークを介して抽出される。
10万本のビデオのコーパスに対して高精度なリコールを示す。
関連論文リスト
- Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文 参考訳(メタデータ) (2023-09-13T10:53:12Z) - VADER: Video Alignment Differencing and Retrieval [70.88247176534426]
VADERは、堅牢なビジュアル記述子と、チャンクされたビデオコンテンツに対するスケーラブルな検索を使用して、部分的なビデオフラグメントを候補ビデオにマッチし、調整する。
時空間コンパレータモジュールは、コンテンツ間の操作の領域を識別する。
論文 参考訳(メタデータ) (2023-03-23T11:50:44Z) - Partially Relevant Video Retrieval [39.747235541498135]
PRVR(Partially Relevant Video Retrieval)と呼ばれる新しいT2VRサブタスクを提案する。
PRVRは、未トリミングビデオの大規模なコレクションから、部分的に関連のあるビデオを取得することを目的としている。
PRVRをマルチインスタンス学習(MIL)問題として定式化し、ビデオクリップの袋とビデオフレームの袋とを同時に見る。
論文 参考訳(メタデータ) (2022-08-26T09:07:16Z) - A Feature-space Multimodal Data Augmentation Technique for Text-video
Retrieval [16.548016892117083]
近年,テキストビデオ検索手法が注目されている。
データ拡張技術は、目に見えないテスト例のパフォーマンスを向上させるために導入された。
特徴空間で機能し,意味的に類似したサンプルを混合して新しいビデオやキャプションを生成するマルチモーダルデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T14:05:20Z) - Self-Supervised Video Representation Learning by Video Incoherence
Detection [28.540645395066434]
本稿では,ビデオ表現学習における非コヒーレンス検出を利用した自己教師方式を提案する。
人間の視覚系は、ビデオの包括的理解に基づいて、容易にビデオの不整合を識別できるという観察に根ざしている。
論文 参考訳(メタデータ) (2021-09-26T04:58:13Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Efficient video integrity analysis through container characterization [77.45740041478743]
本稿では,ビデオ操作に使用するソフトウェアをコンテナベースで識別する手法を提案する。
提案手法は効率的かつ効果的であり,その決定の簡易な説明も可能である。
プリストインを改ざんされたビデオと区別し、編集ソフトを分類することで97.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-01-26T14:13:39Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Feature Re-Learning with Data Augmentation for Video Relevance
Prediction [35.87597969685573]
再学習は、アフィン変換によって与えられた深い機能を新しい空間に投影することで実現される。
本稿では,フレームレベルとビデオレベルの機能に直接依存する新たなデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2020-04-08T05:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。