論文の概要: Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario
- arxiv url: http://arxiv.org/abs/2207.01906v1
- Date: Tue, 5 Jul 2022 09:27:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 14:56:20.652277
- Title: Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario
- Title(参考訳): VISおよびNIRシナリオにおけるビデオフォージェリ検出のための時空間フォージェリクリュー
- Authors: Yukai Wang, Chunlei Peng, Decheng Liu, Nannan Wang and Xinbo Gao
- Abstract要約: 既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
- 参考スコア(独自算出の注目度): 87.72258480670627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, with the rapid development of face editing and generation,
more and more fake videos are circulating on social media, which has caused
extreme public concerns. Existing face forgery detection methods based on
frequency domain find that the GAN forged images have obvious grid-like visual
artifacts in the frequency spectrum compared to the real images. But for
synthesized videos, these methods only confine to single frame and pay little
attention to the most discriminative part and temporal frequency clue among
different frames. To take full advantage of the rich information in video
sequences, this paper performs video forgery detection on both spatial and
temporal frequency domains and proposes a Discrete Cosine Transform-based
Forgery Clue Augmentation Network (FCAN-DCT) to achieve a more comprehensive
spatial-temporal feature representation. FCAN-DCT consists of a backbone
network and two branches: Compact Feature Extraction (CFE) module and Frequency
Temporal Attention (FTA) module. We conduct thorough experimental assessments
on two visible light (VIS) based datasets WildDeepfake and Celeb-DF (v2), and
our self-built video forgery dataset DeepfakeNIR, which is the first video
forgery dataset on near-infrared modality. The experimental results demonstrate
the effectiveness of our method on detecting forgery videos in both VIS and NIR
scenarios.
- Abstract(参考訳): 近年、顔の編集と生成の急速な発展に伴い、ソーシャルメディア上ではますますフェイクビデオが拡散し、大衆の懸念が高まりつつある。
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚アーチファクトを持つ。
しかし、合成ビデオの場合、これらの手法は単一のフレームのみに限定し、異なるフレーム間で最も識別的な部分と時間周波数の手がかりにほとんど注意を払わない。
本稿では,ビデオシーケンスの豊富な情報をフル活用するために,空間周波数領域と時間周波数領域の両方でビデオフォージェリ検出を行い,より包括的な時空間特徴表現を実現するために,離散コサイン変換に基づくフォージェリクリュー拡張ネットワーク(FCAN-DCT)を提案する。
FCAN-DCTは、バックボーンネットワークと、コンパクト特徴抽出(CFE)モジュールと周波数テンポラルアテンション(FTA)モジュールの2つのブランチで構成されている。
我々は、WildDeepfakeとCeleb-DF(v2)の2つの可視光(VIS)ベースのデータセットと、近赤外線の初めてのビデオフォージェリーデータセットであるDeepfakeNIRを徹底的に実験的に評価した。
実験により,VISとNIRの両方のシナリオにおける偽ビデオの検出における本手法の有効性が示された。
関連論文リスト
- Detecting Inpainted Video with Frequency Domain Insights [0.0]
本稿では、検出精度を大幅に向上させる周波数領域洞察ネットワーク(FDIN)を提案する。
公開データセットに対する以前の評価は、FDINが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-09-21T01:51:07Z) - Frequency Domain Nuances Mining for Visible-Infrared Person
Re-identification [75.87443138635432]
既存の手法は主に、識別周波数情報を無視しながら空間情報を利用する。
本稿では,周波数領域情報を対象とした周波数領域Nuances Mining(FDNM)手法を提案する。
本手法は,SYSU-MM01データセットにおいて,Ran-1精度が5.2%,mAPが5.8%向上する。
論文 参考訳(メタデータ) (2024-01-04T09:19:54Z) - No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention
and Zoom-in Boundary Detection [52.03562682785128]
時間的ビデオグラウンドティングは、未編集のビデオから言語クエリの時間間隔を取得することを目的としている。
テレビGにおける重要な課題は、低SNR(Semantic Noise Ratio)による低SNRの性能低下である。
本稿では,2つのコアモジュールからなる非フリーズTVGモデルを提案する。
論文 参考訳(メタデータ) (2023-07-20T04:12:10Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - TBNet:Two-Stream Boundary-aware Network for Generic Image Manipulation
Localization [49.521622399483846]
汎用画像操作のローカライゼーションのための新しいエンド・ツー・エンド2ストリーム境界対応ネットワーク(TBNet)を提案する。
提案したTBNetは、MCCとF1の両方の観点から、最先端の汎用画像操作のローカライズ手法を大幅に上回ることができる。
論文 参考訳(メタデータ) (2021-08-10T08:22:05Z) - Frame-rate Up-conversion Detection Based on Convolutional Neural Network
for Learning Spatiotemporal Features [7.895528973776606]
本稿では、FRUCによる法医学的特徴をエンドツーエンドに学習するフレームレート変換検出ネットワーク(FCDNet)を提案する。
FCDNetは連続するフレームのスタックを入力として使用し、ネットワークブロックを使ってアーティファクトを効果的に学習して特徴を学習する。
論文 参考訳(メタデータ) (2021-03-25T08:47:46Z) - Deep Video Inpainting Detection [95.36819088529622]
映像インペインティング検出は、映像内のインペイント領域を空間的および時間的にローカライズする。
VIDNet, Video Inpainting Detection Networkは、注意モジュールを備えた2ストリームエンコーダデコーダアーキテクチャを含む。
論文 参考訳(メタデータ) (2021-01-26T20:53:49Z) - Fake Visual Content Detection Using Two-Stream Convolutional Neural
Networks [14.781702606707642]
周波数領域と空間領域の特徴を補完する2ストリーム畳み込みニューラルネットワークアーキテクチャであるTwoStreamNetを提案する。
提案手法は, 現状の偽コンテンツ検出装置に比べ, 大幅に性能が向上した。
論文 参考訳(メタデータ) (2021-01-03T18:05:07Z) - Two-branch Recurrent Network for Isolating Deepfakes in Videos [17.59209853264258]
本稿では,2分岐ネットワーク構造に基づくディープフェイク検出手法を提案する。
1つのブランチは元の情報を伝達し、もう1つのブランチは顔の内容を抑制する。
当社の2つの新しいコンポーネントは、FaceForensics++、Celeb-DF、FacebookのDFDCプレビューベンチマークで有望な結果を示している。
論文 参考訳(メタデータ) (2020-08-08T01:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。