論文の概要: Beyond Spatial Frequency: Pixel-wise Temporal Frequency-based Deepfake Video Detection
- arxiv url: http://arxiv.org/abs/2507.02398v1
- Date: Thu, 03 Jul 2025 07:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.878664
- Title: Beyond Spatial Frequency: Pixel-wise Temporal Frequency-based Deepfake Video Detection
- Title(参考訳): 空間周波数を超える:画素単位の時間周波数に基づくディープフェイクビデオ検出
- Authors: Taehoon Kim, Jongwook Choi, Yonghyun Jeong, Haeun Noh, Jaejun Yoo, Seungryul Baek, Jongwon Choi,
- Abstract要約: 本稿では,画素の時間的不整合を利用したディープフェイクビデオ検出手法を提案する。
提案手法では,各画素毎に1次元スペクトル変換を行い,時間的不整合に敏感な特徴を抽出する。
当社のフレームワークは,多種多様かつ困難な検出シナリオにまたがる堅牢なパフォーマンスを実現するディープフェイクビデオ検出の大幅な進歩を示す。
- 参考スコア(独自算出の注目度): 20.96211739806439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a deepfake video detection approach that exploits pixel-wise temporal inconsistencies, which traditional spatial frequency-based detectors often overlook. Traditional detectors represent temporal information merely by stacking spatial frequency spectra across frames, resulting in the failure to detect temporal artifacts in the pixel plane. Our approach performs a 1D Fourier transform on the time axis for each pixel, extracting features highly sensitive to temporal inconsistencies, especially in areas prone to unnatural movements. To precisely locate regions containing the temporal artifacts, we introduce an attention proposal module trained in an end-to-end manner. Additionally, our joint transformer module effectively integrates pixel-wise temporal frequency features with spatio-temporal context features, expanding the range of detectable forgery artifacts. Our framework represents a significant advancement in deepfake video detection, providing robust performance across diverse and challenging detection scenarios.
- Abstract(参考訳): 我々は、従来の空間周波数に基づく検出器がしばしば見落としている画素の時間的不整合を利用したディープフェイクビデオ検出手法を提案する。
従来の検出器は、フレームに空間周波数スペクトルを積み重ねただけで時間情報を表現しており、ピクセル平面の時間的アーティファクトを検出することができない。
提案手法では,各画素の時間軸に1次元フーリエ変換を行い,時間的不整合に非常に敏感な特徴を抽出する。
時間的アーティファクトを含む領域を正確に特定するために,エンド・ツー・エンドで訓練されたアテンション提案モジュールを導入する。
さらに,我々のジョイントトランスモジュールは,画素単位の時間周波数特徴と時空間の特徴を効果的に統合し,検出可能な偽物の範囲を広げる。
我々のフレームワークは、ディープフェイクビデオ検出の大幅な進歩を示し、多様な、困難な検出シナリオにまたがって堅牢なパフォーマンスを提供する。
関連論文リスト
- Detecting Inpainted Video with Frequency Domain Insights [0.0]
本稿では、検出精度を大幅に向上させる周波数領域洞察ネットワーク(FDIN)を提案する。
公開データセットに対する以前の評価は、FDINが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-09-21T01:51:07Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Multimodal Graph Learning for Deepfake Detection [10.077496841634135]
既存のディープフェイク検出器は、堅牢性と一般化を達成する上でいくつかの課題に直面している。
本稿では,マルチモーダルグラフ学習(MGL)という新しいフレームワークを提案する。
提案手法は,ディープフェイク検出のための特徴を効果的に識別し,活用することを目的としている。
論文 参考訳(メタデータ) (2022-09-12T17:17:49Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - Spatial-Phase Shallow Learning: Rethinking Face Forgery Detection in
Frequency Domain [88.7339322596758]
本論文では,空間画像と位相スペクトルを組み合わせ,顔の偽造のアップサンプリング成果をキャプチャするSPSL(Spatial-Phase Shallow Learning)法を提案する。
SPSLは、クロスデータセット評価における最先端性能とマルチクラス分類を実現し、単一データセット評価において同等の結果を得ることができる。
論文 参考訳(メタデータ) (2021-03-02T16:45:08Z) - Deep Video Inpainting Detection [95.36819088529622]
映像インペインティング検出は、映像内のインペイント領域を空間的および時間的にローカライズする。
VIDNet, Video Inpainting Detection Networkは、注意モジュールを備えた2ストリームエンコーダデコーダアーキテクチャを含む。
論文 参考訳(メタデータ) (2021-01-26T20:53:49Z) - Exploring Spatial-Temporal Multi-Frequency Analysis for High-Fidelity
and Temporal-Consistency Video Prediction [12.84409065286371]
本稿では,マルチレベルウェーブレット解析に基づく映像予測ネットワークを提案し,空間的・時間的情報を統一的に扱う。
本モデルでは,最先端の作業に対する忠実度と時間的整合性に大きな改善が見られた。
論文 参考訳(メタデータ) (2020-02-23T13:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。