論文の概要: Vulnerability-Aware Spatio-Temporal Learning for Generalizable and Interpretable Deepfake Video Detection
- arxiv url: http://arxiv.org/abs/2501.01184v2
- Date: Thu, 16 Jan 2025 17:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:07:38.071683
- Title: Vulnerability-Aware Spatio-Temporal Learning for Generalizable and Interpretable Deepfake Video Detection
- Title(参考訳): 広汎かつ解釈可能なディープフェイクビデオ検出のための脆弱性を考慮した時空間学習
- Authors: Dat Nguyen, Marcella Astrid, Anis Kacem, Enjie Ghorbel, Djamila Aouada,
- Abstract要約: ディープフェイクビデオは、鍛造シーケンスの複雑な時間的および空間的なアーティファクトのため、検出が極めて困難である。
最近のアプローチは、実データと偽データの両方で訓練されたバイナリ分類器に依存している。
モデルが微妙なアーティファクトに集中できるように,空間的および時間的分岐を付加したマルチタスク学習フレームワークを導入する。
第2に,疑似フェイク映像を微妙なアーティファクトで生成するビデオレベルデータアルゴリズムを提案し,そのモデルに高品質なサンプルと地上真実データを提供する。
- 参考スコア(独自算出の注目度): 14.586314545834934
- License:
- Abstract: Detecting deepfake videos is highly challenging due to the complex intertwined spatial and temporal artifacts in forged sequences. Most recent approaches rely on binary classifiers trained on both real and fake data. However, such methods may struggle to focus on important artifacts, which can hinder their generalization capability. Additionally, these models often lack interpretability, making it difficult to understand how predictions are made. To address these issues, we propose FakeSTormer, offering two key contributions. First, we introduce a multi-task learning framework with additional spatial and temporal branches that enable the model to focus on subtle spatio-temporal artifacts. These branches also provide interpretability by highlighting video regions that may contain artifacts. Second, we propose a video-level data synthesis algorithm that generates pseudo-fake videos with subtle artifacts, providing the model with high-quality samples and ground truth data for our spatial and temporal branches. Extensive experiments on several challenging benchmarks demonstrate the competitiveness of our approach compared to recent state-of-the-art methods. The code is available at https://github.com/10Ring/FakeSTormer.
- Abstract(参考訳): 擬似シーケンスにおける複雑な空間的および時間的アーティファクトのため、ディープフェイクビデオの検出は非常に困難である。
最近のアプローチは、実データと偽データの両方で訓練されたバイナリ分類器に依存している。
しかし、そのような手法は、その一般化能力を妨げる重要な成果物に焦点を合わせるのに苦労する可能性がある。
さらに、これらのモデルは解釈可能性に欠けることが多く、予測の仕方を理解するのが困難である。
これらの問題に対処するため、FakeSTormerを提案し、2つの重要なコントリビューションを提供します。
まず,空間的および時間的分岐を付加したマルチタスク学習フレームワークを導入し,そのモデルが微妙な時空間アーティファクトに集中できるようにする。
これらのブランチは、アーティファクトを含むビデオ領域をハイライトすることで、解釈性も提供する。
第2に,疑似フェイク映像を微妙なアーティファクトで生成するビデオレベルデータ合成アルゴリズムを提案する。
いくつかの挑戦的なベンチマークに関する大規模な実験は、最近の最先端の手法と比較して、我々のアプローチの競争力を示している。
コードはhttps://github.com/10Ring/FakeSTormer.comで入手できる。
関連論文リスト
- Generalizing Deepfake Video Detection with Plug-and-Play: Video-Level Blending and Spatiotemporal Adapter Tuning [41.30923253467854]
時間的特徴は複雑で多様である。
時空間モデルは、しばしばある種類のアーティファクトに強く依存し、もう一方を無視します。
ビデオは当然リソース集約だ。
論文 参考訳(メタデータ) (2024-08-30T07:49:57Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [62.36887303063542]
本研究は,ストリーム映像深度推定の課題に対処する。
フレームやクリップ間でコンテキスト情報を共有することは、時間的一貫性を育む上で重要である、と我々は主張する。
具体的には、任意の長さの動画に対して一貫したコンテキスト認識学習と推論戦略を提案し、クロスクリップなコンテキストを提供する。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - AltFreezing for More General Video Face Forgery Detection [138.5732617371004]
顔偽造検出のための1つのモデルにおいて,空間的および見えない時間的アーティファクトの両方をキャプチャすることを提案する。
より一般的な顔偽造検出のためのAltFreezingと呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-17T08:24:58Z) - Undercover Deepfakes: Detecting Fake Segments in Videos [1.2609216345578933]
ディープフェイク・ジェネレーションは ディープフェイクの新しいパラダイムだ ほとんどは 真実を歪めるために わずかに修正された 実際のビデオだ
本稿では,フレームとビデオレベルでディープフェイク予測を行うことにより,この問題に対処できるディープフェイク検出手法を提案する。
特に、私たちが取り組むパラダイムは、ディープフェイクのモデレーションのための強力なツールを形成します。
論文 参考訳(メタデータ) (2023-05-11T04:43:10Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Detection of Deepfake Videos Using Long Distance Attention [73.6659488380372]
既存のほとんどの検出方法は、問題をバニラ二項分類問題として扱う。
本稿では,偽顔と実顔の相違が非常に微妙であるため,特にきめ細かな分類問題として扱われる。
大域的な視点で空間的・時間的偽の痕跡を捉えるための2つの要素を持つ時空間モデルを提案する。
論文 参考訳(メタデータ) (2021-06-24T08:33:32Z) - Spatio-temporal Features for Generalized Detection of Deepfake Videos [12.453288832098314]
我々は3D CNNによってモデル化された時間的特徴を提案し、新しい種類のディープビデオを検出する能力を拡張した。
提案手法は,一般化能力において既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:28:50Z) - Deepfake Detection using Spatiotemporal Convolutional Networks [0.0]
ディープフェイク検出法は個々のフレームのみを使用し、時間情報から学習することができない。
我々はCeleb-DFデータセットを用いて性能のベンチマークを作成した。
提案手法は,最先端のフレームベース検出法より優れていた。
論文 参考訳(メタデータ) (2020-06-26T01:32:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。