論文の概要: DIP: Diffusion Learning of Inconsistency Pattern for General DeepFake Detection
- arxiv url: http://arxiv.org/abs/2410.23663v1
- Date: Thu, 31 Oct 2024 06:26:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:00:43.016544
- Title: DIP: Diffusion Learning of Inconsistency Pattern for General DeepFake Detection
- Title(参考訳): DIP:一般深度検出のための不整合パターンの拡散学習
- Authors: Fan Nie, Jiangqun Ni, Jian Zhang, Bin Zhang, Weizhe Zhang,
- Abstract要約: ディフュージョン不整合学習(DIP)のためのトランスフォーマーベースフレームワークを提案する。
提案手法は,偽の手がかりを効果的に同定し,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 18.116004258266535
- License:
- Abstract: With the advancement of deepfake generation techniques, the importance of deepfake detection in protecting multimedia content integrity has become increasingly obvious. Recently, temporal inconsistency clues have been explored to improve the generalizability of deepfake video detection. According to our observation, the temporal artifacts of forged videos in terms of motion information usually exhibits quite distinct inconsistency patterns along horizontal and vertical directions, which could be leveraged to improve the generalizability of detectors. In this paper, a transformer-based framework for Diffusion Learning of Inconsistency Pattern (DIP) is proposed, which exploits directional inconsistencies for deepfake video detection. Specifically, DIP begins with a spatiotemporal encoder to represent spatiotemporal information. A directional inconsistency decoder is adopted accordingly, where direction-aware attention and inconsistency diffusion are incorporated to explore potential inconsistency patterns and jointly learn the inherent relationships. In addition, the SpatioTemporal Invariant Loss (STI Loss) is introduced to contrast spatiotemporally augmented sample pairs and prevent the model from overfitting nonessential forgery artifacts. Extensive experiments on several public datasets demonstrate that our method could effectively identify directional forgery clues and achieve state-of-the-art performance.
- Abstract(参考訳): ディープフェイク生成技術の進歩に伴い、マルチメディアコンテンツの完全性を保護する上でのディープフェイク検出の重要性が増している。
近年,ディープフェイク映像検出の一般化性向上のために,時間的不整合手がかりが検討されている。
我々の観察によると、動画の時間的アーチファクトは、通常、水平方向と垂直方向に沿って全く異なる不整合パターンを示しており、検出器の一般化性を向上させるために利用することができる。
本稿では,ディフュージョン・ラーニング・オブ・ディフュージョン・ラーニング・オブ・インコンシスタンス・パターン(DIP)のためのトランスフォーマー・ベースのフレームワークを提案する。
具体的には、DIPは時空間情報を表す時空間エンコーダから始まる。
指向性不整合デコーダを用い、方向性認識の注意と不整合拡散を組み込んで、潜在的な不整合パターンを探索し、本質的な関係を共同学習する。
さらに、時空間的に増強されたサンプルペアを対比するために、時空間不変損失 (STI Loss) を導入し、モデルが無意味な偽造品を過度に適合させないようにする。
いくつかの公開データセットに対する大規模な実験により、我々の手法は方向性の偽の手がかりを効果的に識別し、最先端のパフォーマンスを実現することができることを示した。
関連論文リスト
- ED$^4$: Explicit Data-level Debiasing for Deepfake Detection [24.695989108814018]
限られたデータから固有のバイアスを学習することは、一般化可能なディープフェイク検出の失敗の主な原因と考えられている。
データレベルで上記のバイアスに明示的に対処するためのシンプルで効果的な戦略であるED$4$を提示します。
我々は,既存のディープフェイク検出手法よりも有効性と優位性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-08-13T10:05:20Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Unearthing Common Inconsistency for Generalisable Deepfake Detection [8.327980745153216]
ビデオレベル1は、複数のドメインにまたがる一般化と圧縮に対する堅牢性の両方を持つ可能性を示している。
本稿では,異なる偽造技術に広く存在するフレーム不整合を捉えることによって検出手法を提案する。
本研究では,時間的に保存されたモジュール法を導入し,空間雑音の摂動を導入し,時間的情報に対するモデルの注意を向ける。
論文 参考訳(メタデータ) (2023-11-20T06:04:09Z) - CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。
既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。
顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文 参考訳(メタデータ) (2023-09-30T12:30:25Z) - SeeABLE: Soft Discrepancies and Bounded Contrastive Learning for
Exposing Deepfakes [7.553507857251396]
本研究では,検出問題を(一級)アウト・オブ・ディストリビューション検出タスクとして形式化する,SeeABLEと呼ばれる新しいディープフェイク検出器を提案する。
SeeABLEは、新しい回帰ベースの有界コントラスト損失を使用して、乱れた顔を事前定義されたプロトタイプにプッシュする。
我々のモデルは競合する最先端の検出器よりも高い性能を示しながら、高度に一般化能力を示す。
論文 参考訳(メタデータ) (2022-11-21T09:38:30Z) - Detecting Deepfake by Creating Spatio-Temporal Regularity Disruption [94.5031244215761]
本稿では,実際のビデオにない「規則性破壊」を識別することで,ディープフェイク検出の一般化を促進することを提案する。
具体的には、空間的・時間的特性を慎重に調べることで、擬似フェイク発生器による実映像の破壊を提案する。
このような手法により,フェイクビデオを使わずにディープフェイク検出が可能となり,よりシンプルかつ効率的に一般化能力を向上させることができる。
論文 参考訳(メタデータ) (2022-07-21T10:42:34Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spatio-temporal Features for Generalized Detection of Deepfake Videos [12.453288832098314]
我々は3D CNNによってモデル化された時間的特徴を提案し、新しい種類のディープビデオを検出する能力を拡張した。
提案手法は,一般化能力において既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。