論文の概要: Deepfake Detection with Spatio-Temporal Consistency and Attention
- arxiv url: http://arxiv.org/abs/2502.08216v1
- Date: Wed, 12 Feb 2025 08:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:13.331621
- Title: Deepfake Detection with Spatio-Temporal Consistency and Attention
- Title(参考訳): 時空間整合性と注意によるディープフェイク検出
- Authors: Yunzhuo Chen, Naveed Akhtar, Nur Al Hasan Haldar, Ajmal Mian,
- Abstract要約: ディープフェイクビデオは、現実主義の高まりにより、コミュニティの間で懸念が高まっている。
鍛造ビデオ検出の現在の方法は、主にグローバルなフレーム機能に依存している。
本稿では,偽ビデオの局所的な操作的シグネチャに着目したニューラルディープフェイク検出器を提案する。
- 参考スコア(独自算出の注目度): 46.1135899490656
- License:
- Abstract: Deepfake videos are causing growing concerns among communities due to their ever-increasing realism. Naturally, automated detection of forged Deepfake videos is attracting a proportional amount of interest of researchers. Current methods for detecting forged videos mainly rely on global frame features and under-utilize the spatio-temporal inconsistencies found in the manipulated videos. Moreover, they fail to attend to manipulation-specific subtle and well-localized pattern variations along both spatial and temporal dimensions. Addressing these gaps, we propose a neural Deepfake detector that focuses on the localized manipulative signatures of the forged videos at individual frame level as well as frame sequence level. Using a ResNet backbone, it strengthens the shallow frame-level feature learning with a spatial attention mechanism. The spatial stream of the model is further helped by fusing texture enhanced shallow features with the deeper features. Simultaneously, the model processes frame sequences with a distance attention mechanism that further allows fusion of temporal attention maps with the learned features at the deeper layers. The overall model is trained to detect forged content as a classifier. We evaluate our method on two popular large data sets and achieve significant performance over the state-of-the-art methods.Moreover, our technique also provides memory and computational advantages over the competitive techniques.
- Abstract(参考訳): ディープフェイクビデオは、現実主義の高まりにより、コミュニティの間で懸念が高まっている。
当然、偽造されたDeepfakeビデオの自動検出は、研究者の興味をひきつけている。
鍛造ビデオを検出する現在の方法は、主にグローバルなフレーム機能に依存し、操作されたビデオに見られる時空間的不整合を過小評価している。
さらに、これらは空間次元と時間次元の両方に沿って、操作特有の微妙で局所的なパターンのバリエーションに対応できない。
これらのギャップに対処するため、我々は、個々のフレームレベルとフレームシーケンスレベルの鍛造ビデオの局所的なマニピュレータシグネチャに焦点を当てたニューラルディープフェイク検出器を提案する。
ResNetのバックボーンを使用して、空間的注意機構を備えた浅いフレームレベルの特徴学習を強化する。
モデルの空間的流れは、テクスチャ強化された浅い特徴と深い特徴を融合させることによりさらに助けられる。
同時に、モデルがフレームシーケンスを距離アテンション機構で処理することで、より深い層で学習した特徴と時間アテンションマップの融合を可能にする。
全体的なモデルは、分類器として鍛造されたコンテンツを検出するために訓練される。
提案手法は,2つの一般的な大規模データセット上で評価し,最先端の手法よりも高い性能を達成し,また,競合技術よりもメモリと計算の優位性も提供する。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection [41.35861722481721]
社会とサイバーセキュリティに対するディープフェイクの脅威は、重大な公衆の不安を引き起こしている。
本稿では,Thumbnail Layout(TALL)という,エレガントでシンプルだが効果的な戦略を紹介する。
TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
論文 参考訳(メタデータ) (2024-03-15T12:48:44Z) - A Spatial-Temporal Deformable Attention based Framework for Breast
Lesion Detection in Videos [107.96514633713034]
本稿では,STNet という空間的・時間的変形可能なアテンションベースのフレームワークを提案する。
我々のSTNetは、局所的な空間的時間的特徴融合を行うために、空間的時間的変形可能なアテンションモジュールを導入している。
乳腺病変の超音波画像データセットを用いた実験により,STNetは最先端の検出性能を得ることができた。
論文 参考訳(メタデータ) (2023-09-09T07:00:10Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - The Effectiveness of Temporal Dependency in Deepfake Video Detection [0.0]
本稿では,時間的情報によって深層学習モデルの深部学習性能が向上するかどうかを検討する。
その結果,時間依存性は実画像の分類において統計的に顕著な増加をもたらすことがわかった。
論文 参考訳(メタデータ) (2022-05-13T14:39:25Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Detection of Deepfake Videos Using Long Distance Attention [73.6659488380372]
既存のほとんどの検出方法は、問題をバニラ二項分類問題として扱う。
本稿では,偽顔と実顔の相違が非常に微妙であるため,特にきめ細かな分類問題として扱われる。
大域的な視点で空間的・時間的偽の痕跡を捉えるための2つの要素を持つ時空間モデルを提案する。
論文 参考訳(メタデータ) (2021-06-24T08:33:32Z) - Spatio-temporal Features for Generalized Detection of Deepfake Videos [12.453288832098314]
我々は3D CNNによってモデル化された時間的特徴を提案し、新しい種類のディープビデオを検出する能力を拡張した。
提案手法は,一般化能力において既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。