論文の概要: Generalizing Deepfake Video Detection with Plug-and-Play: Video-Level Blending and Spatiotemporal Adapter Tuning
- arxiv url: http://arxiv.org/abs/2408.17065v1
- Date: Fri, 30 Aug 2024 07:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:09:30.441869
- Title: Generalizing Deepfake Video Detection with Plug-and-Play: Video-Level Blending and Spatiotemporal Adapter Tuning
- Title(参考訳): プラグイン・アンド・プレイによるディープフェイク映像検出の一般化:ビデオレベルブレンディングと時空間アダプタ調整
- Authors: Zhiyuan Yan, Yandan Zhao, Shen Chen, Xinghe Fu, Taiping Yao, Shouhong Ding, Li Yuan,
- Abstract要約: 時間的特徴は複雑で多様である。
時空間モデルは、しばしばある種類のアーティファクトに強く依存し、もう一方を無視します。
ビデオは当然リソース集約だ。
- 参考スコア(独自算出の注目度): 42.86270268974854
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Three key challenges hinder the development of current deepfake video detection: (1) Temporal features can be complex and diverse: how can we identify general temporal artifacts to enhance model generalization? (2) Spatiotemporal models often lean heavily on one type of artifact and ignore the other: how can we ensure balanced learning from both? (3) Videos are naturally resource-intensive: how can we tackle efficiency without compromising accuracy? This paper attempts to tackle the three challenges jointly. First, inspired by the notable generality of using image-level blending data for image forgery detection, we investigate whether and how video-level blending can be effective in video. We then perform a thorough analysis and identify a previously underexplored temporal forgery artifact: Facial Feature Drift (FFD), which commonly exists across different forgeries. To reproduce FFD, we then propose a novel Video-level Blending data (VB), where VB is implemented by blending the original image and its warped version frame-by-frame, serving as a hard negative sample to mine more general artifacts. Second, we carefully design a lightweight Spatiotemporal Adapter (StA) to equip a pretrained image model (both ViTs and CNNs) with the ability to capture both spatial and temporal features jointly and efficiently. StA is designed with two-stream 3D-Conv with varying kernel sizes, allowing it to process spatial and temporal features separately. Extensive experiments validate the effectiveness of the proposed methods; and show our approach can generalize well to previously unseen forgery videos, even the just-released (in 2024) SoTAs. We release our code and pretrained weights at \url{https://github.com/YZY-stack/StA4Deepfake}.
- Abstract(参考訳): 1) 時間的特徴は複雑で多様なものになり得る: モデル一般化を強化するためにどのように一般的な時間的アーティファクトを特定できるか?
2)時空間モデルは、しばしばある種類のアーティファクトに強く依存し、もう一方を無視します。
(3)動画は自然に資源集約的であり, 精度を損なうことなく, どうすれば効率に対処できるのか?
本稿では,3つの課題を共同で解決しようと試みる。
まず、画像偽造検出に画像レベルのブレンディングデータを使用することの顕著な一般化に着想を得て、ビデオレベルのブレンディングがビデオに有効であるかどうかを調査する。
そこで我々は,これまで未発見の時間的偽造品である顔面特徴ドリフト(FFD)を網羅的に分析し,同定した。
FFD を再生するために,VB はオリジナル画像とワープされたバージョンをフレーム単位でブレンドして実装され,より一般的なアーティファクトをマイニングするためのハードネガティブなサンプルとして機能するビデオレベルブレンディングデータ (VB) を提案する。
第2に、空間的特徴と時間的特徴を同時かつ効率的に捉える能力を備えた事前訓練画像モデル(ViTとCNNの両方)を装備するための軽量時空間適応器(StA)を慎重に設計する。
StAはカーネルサイズが異なる2ストリームの3D-Convで設計されており、空間的特徴と時間的特徴を別々に処理できる。
提案手法の有効性を検証し,2024年にリリースされたばかりのSOTAでさえも,これまで見つからなかった偽ビデオに対して,我々のアプローチをうまく一般化できることを示す。
コードと事前トレーニングされたウェイトは、 \url{https://github.com/YZY-stack/StA4Deepfake} でリリースしています。
関連論文リスト
- Video Depth Anything: Consistent Depth Estimation for Super-Long Videos [60.857723250653976]
超長ビデオにおける高品質で一貫した深度推定のためのビデオ深度推定法を提案する。
我々のモデルは、Depth Anything V2と同様、ビデオ深度とラベルなし画像の合同データセットに基づいて訓練されている。
提案手法は,ゼロショット映像深度推定における新しい最先端技術である。
論文 参考訳(メタデータ) (2025-01-21T18:53:30Z) - Vulnerability-Aware Spatio-Temporal Learning for Generalizable and Interpretable Deepfake Video Detection [14.586314545834934]
ディープフェイクビデオは、鍛造シーケンスの複雑な時間的および空間的なアーティファクトのため、検出が極めて困難である。
最近のアプローチは、実データと偽データの両方で訓練されたバイナリ分類器に依存している。
モデルが微妙なアーティファクトに集中できるように,空間的および時間的分岐を付加したマルチタスク学習フレームワークを導入する。
第2に,疑似フェイク映像を微妙なアーティファクトで生成するビデオレベルデータアルゴリズムを提案し,そのモデルに高品質なサンプルと地上真実データを提供する。
論文 参考訳(メタデータ) (2025-01-02T10:21:34Z) - Distinguish Any Fake Videos: Unleashing the Power of Large-scale Data and Motion Features [21.583246378475856]
我々は、AI生成ビデオ検出(GenVidDet)に特化して設計された広範なビデオデータセットを紹介する。
また,DuB3D(Du-Branch 3D Transformer)という,実写映像と実写映像を区別する革新的な方法を提案する。
DuB3Dは、96.77%の精度で実際の映像コンテンツと生成された映像コンテンツを区別でき、目に見えないタイプでも強力な一般化能力を持つ。
論文 参考訳(メタデータ) (2024-05-24T08:26:04Z) - Latent Spatiotemporal Adaptation for Generalized Face Forgery Video Detection [22.536129731902783]
顔画像の一般的な検出を容易にするためのLatemporal Spatio(LAST)アプローチを提案する。
まず、各フレームの局所的な空間的特徴を抽出するために、軽量CNNを組み込むことで、ビデオの時間的パターンをモデル化する。
次に、静止空間ビデオの長期的表現を学習し、画素空間よりも多くの手がかりを含むべきである。
論文 参考訳(メタデータ) (2023-09-09T13:40:44Z) - AltFreezing for More General Video Face Forgery Detection [138.5732617371004]
顔偽造検出のための1つのモデルにおいて,空間的および見えない時間的アーティファクトの両方をキャプチャすることを提案する。
より一般的な顔偽造検出のためのAltFreezingと呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-17T08:24:58Z) - TAPE: Temporal Attention-based Probabilistic human pose and shape
Estimation [7.22614468437919]
既存の手法では復元のあいまいさを無視し、3Dポーズの1つの決定論的推定を提供する。
本稿では,RGBビデオで動作する時間的注意に基づく確率的人間のポーズと形状推定手法を提案する。
TAPEは標準ベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-29T06:08:43Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。