論文の概要: Deep Video Inpainting Detection
- arxiv url: http://arxiv.org/abs/2101.11080v1
- Date: Tue, 26 Jan 2021 20:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 02:02:08.505034
- Title: Deep Video Inpainting Detection
- Title(参考訳): Deep Video Inpainting Detection
- Authors: Peng Zhou, Ning Yu, Zuxuan Wu, Larry S. Davis, Abhinav Shrivastava and
Ser-Nam Lim
- Abstract要約: 映像インペインティング検出は、映像内のインペイント領域を空間的および時間的にローカライズする。
VIDNet, Video Inpainting Detection Networkは、注意モジュールを備えた2ストリームエンコーダデコーダアーキテクチャを含む。
- 参考スコア(独自算出の注目度): 95.36819088529622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies video inpainting detection, which localizes an inpainted
region in a video both spatially and temporally. In particular, we introduce
VIDNet, Video Inpainting Detection Network, which contains a two-stream
encoder-decoder architecture with attention module. To reveal artifacts encoded
in compression, VIDNet additionally takes in Error Level Analysis frames to
augment RGB frames, producing multimodal features at different levels with an
encoder. Exploring spatial and temporal relationships, these features are
further decoded by a Convolutional LSTM to predict masks of inpainted regions.
In addition, when detecting whether a pixel is inpainted or not, we present a
quad-directional local attention module that borrows information from its
surrounding pixels from four directions. Extensive experiments are conducted to
validate our approach. We demonstrate, among other things, that VIDNet not only
outperforms by clear margins alternative inpainting detection methods but also
generalizes well on novel videos that are unseen during training.
- Abstract(参考訳): 本研究は,映像中のインペイント領域を空間的および時間的にローカライズする映像インペインティング検出手法について検討する。
特に、注意モジュールを備えた2ストリームエンコーダデコーダアーキテクチャを含むVIDNet、Video Inpainting Detection Networkを紹介します。
圧縮で符号化されたアーティファクトを明らかにするため、VIDNetはエラーレベル解析フレームを付加してRGBフレームを拡大し、エンコーダで異なるレベルでマルチモーダル機能を生成する。
空間的および時間的関係を探索し、これらの特徴は、塗装領域のマスクを予測する畳み込みLSTMによってさらにデコードされる。
さらに,画素が塗布されているか否かを検出する際には,周囲の画素から情報を4方向から借用する四方向局所アテンションモジュールを提案する。
我々のアプローチを検証するために広範な実験が実施された。
とくに、VIDNetは、クリアマージンの代替塗り絵検出方法に勝るだけでなく、トレーニング中に目に見えない新しいビデオにも優れていることを実証する。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Video Inpainting Localization with Contrastive Learning [2.1210527985139227]
ディープ・インペイントは通常、偽ビデオを作成するための重要なオブジェクトを削除する悪質な操作として使用される。
コントロアシブラーニング(ViLocal)を用いた簡易かつ効果的な映像塗装手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T15:15:54Z) - Trusted Video Inpainting Localization via Deep Attentive Noise Learning [2.1210527985139227]
本稿では,堅牢性と一般化性に優れたTruVIL(Trusted Video Inpainting Localization Network)を提案する。
塗装された痕跡を捉えるために,複数段階の深い注意雑音学習を設計する。
十分なトレーニングサンプルを作成するために,2500本のビデオからなるフレームレベルのビデオオブジェクトセグメンテーションデータセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T14:08:58Z) - Mumpy: Multilateral Temporal-view Pyramid Transformer for Video Inpainting Detection [41.4800103693756]
本稿では,空間的時間的手がかりを柔軟に協調する多面的時間的ピラミッド変換器(em MumPy)について紹介する。
提案手法は, 空間的・時間的手がかりの様々な協調関係を抽出するために, 新たに設計された多面的時間的視点を用いて, 変形可能なウィンドウベース時間的対話モジュールを導入する。
空間的および時間的手がかりの寄与強度を調整することにより, 塗装領域の同定を効果的に行うことができる。
論文 参考訳(メタデータ) (2024-04-17T03:56:28Z) - A Spatial-Temporal Deformable Attention based Framework for Breast
Lesion Detection in Videos [107.96514633713034]
本稿では,STNet という空間的・時間的変形可能なアテンションベースのフレームワークを提案する。
我々のSTNetは、局所的な空間的時間的特徴融合を行うために、空間的時間的変形可能なアテンションモジュールを導入している。
乳腺病変の超音波画像データセットを用いた実験により,STNetは最先端の検出性能を得ることができた。
論文 参考訳(メタデータ) (2023-09-09T07:00:10Z) - Multimodal Graph Learning for Deepfake Detection [10.077496841634135]
既存のディープフェイク検出器は、堅牢性と一般化を達成する上でいくつかの課題に直面している。
本稿では,マルチモーダルグラフ学習(MGL)という新しいフレームワークを提案する。
提案手法は,ディープフェイク検出のための特徴を効果的に識別し,活用することを目的としている。
論文 参考訳(メタデータ) (2022-09-12T17:17:49Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。