論文の概要: Latent Spatiotemporal Adaptation for Generalized Face Forgery Video Detection
- arxiv url: http://arxiv.org/abs/2309.04795v2
- Date: Thu, 24 Oct 2024 02:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:43:06.852983
- Title: Latent Spatiotemporal Adaptation for Generalized Face Forgery Video Detection
- Title(参考訳): 汎用顔偽ビデオ検出のための潜時空間適応法
- Authors: Daichi Zhang, Zihao Xiao, Jianmin Li, Shiming Ge,
- Abstract要約: 顔画像の一般的な検出を容易にするためのLatemporal Spatio(LAST)アプローチを提案する。
まず、各フレームの局所的な空間的特徴を抽出するために、軽量CNNを組み込むことで、ビデオの時間的パターンをモデル化する。
次に、静止空間ビデオの長期的表現を学習し、画素空間よりも多くの手がかりを含むべきである。
- 参考スコア(独自算出の注目度): 22.536129731902783
- License:
- Abstract: Face forgery videos have caused severe public concerns, and many detectors have been proposed. However, most of these detectors suffer from limited generalization when detecting videos from unknown distributions, such as from unseen forgery methods. In this paper, we find that different forgery videos have distinct spatiotemporal patterns, which may be the key to generalization. To leverage this finding, we propose a Latent Spatiotemporal Adaptation~(LAST) approach to facilitate generalized face forgery video detection. The key idea is to optimize the detector adaptive to the spatiotemporal patterns of unknown videos in latent space to improve the generalization. Specifically, we first model the spatiotemporal patterns of face videos by incorporating a lightweight CNN to extract local spatial features of each frame and then cascading a vision transformer to learn the long-term spatiotemporal representations in latent space, which should contain more clues than in pixel space. Then by optimizing a transferable linear head to perform the usual forgery detection task on known videos and recover the spatiotemporal clues of unknown target videos in a semi-supervised manner, our detector could flexibly adapt to unknown videos' spatiotemporal patterns, leading to improved generalization. Additionally, to eliminate the influence of specific forgery videos, we pre-train our CNN and transformer only on real videos with two simple yet effective self-supervised tasks: reconstruction and contrastive learning in latent space and keep them frozen during fine-tuning. Extensive experiments on public datasets demonstrate that our approach achieves state-of-the-art performance against other competitors with impressive generalization and robustness.
- Abstract(参考訳): 顔の偽造ビデオは深刻な公衆の懸念を引き起こしており、多くの検知器が提案されている。
しかし、これらの検出器のほとんどは、見えない偽造法のような未知の分布からビデオを検出する際に、限定的な一般化に苦しむ。
本稿では,異なるフォージェリービデオの時空間パターンが異なることが,一般化の鍵となる可能性がある。
この発見を活用するために,汎用顔偽ビデオ検出を容易にする潜在時空間適応~(LAST)手法を提案する。
鍵となるアイデアは、遅延空間における未知ビデオの時空間パターンに適応する検出器を最適化し、一般化を改善することである。
具体的には、まず、軽量なCNNを組み込んで各フレームの局所的な空間的特徴を抽出し、次に視覚変換器をカスケードして潜時空間における長期時空間表現を学習し、画素空間よりも多くの手がかりを含むようにして、顔ビデオの時空間パターンをモデル化する。
そして、トランスファー可能なリニアヘッドを最適化して、既知のビデオの通常の偽造検出タスクを実行し、半教師付きで未知のビデオの時空間的手がかりを復元することにより、検出者は未知のビデオの時空間的パターンに柔軟に対応することができ、一般化が向上した。
さらに、特定の偽ビデオの影響を排除するため、我々はCNNとトランスフォーマーを2つの単純で効果的な自己教師型タスク、すなわち遅延空間における再構成とコントラスト学習のみで訓練し、微調整中にそれらを凍結し続ける。
公開データセットに対する大規模な実験により、我々のアプローチは印象的な一般化とロバスト性を持つ他の競合相手に対して最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Learning Natural Consistency Representation for Face Forgery Video Detection [23.53549629885891]
本研究では,自然表現(NACO)の実写映像を自己監督的に学習することを提案する。
我々の手法は、他の最先端の手法よりも優れたロバスト性を持つ。
論文 参考訳(メタデータ) (2024-07-15T09:00:02Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - AltFreezing for More General Video Face Forgery Detection [138.5732617371004]
顔偽造検出のための1つのモデルにおいて,空間的および見えない時間的アーティファクトの両方をキャプチャすることを提案する。
より一般的な顔偽造検出のためのAltFreezingと呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-17T08:24:58Z) - Detecting Deepfake by Creating Spatio-Temporal Regularity Disruption [94.5031244215761]
本稿では,実際のビデオにない「規則性破壊」を識別することで,ディープフェイク検出の一般化を促進することを提案する。
具体的には、空間的・時間的特性を慎重に調べることで、擬似フェイク発生器による実映像の破壊を提案する。
このような手法により,フェイクビデオを使わずにディープフェイク検出が可能となり,よりシンプルかつ効率的に一般化能力を向上させることができる。
論文 参考訳(メタデータ) (2022-07-21T10:42:34Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Convolutional Transformer based Dual Discriminator Generative
Adversarial Networks for Video Anomaly Detection [27.433162897608543]
本稿では,CT-D2GAN(Conversaal Transformer based Dual Discriminator Generative Adrial Networks)を提案する。
これには、入力クリップの空間情報をキャプチャする畳み込みエンコーダ(convolutional encoder)と、時間的ダイナミクスをエンコードして将来のフレームを予測する時間的自己アテンションモジュール(temporal self-attention module)という3つのキーコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-07-29T03:07:25Z) - Over-the-Air Adversarial Flickering Attacks against Video Recognition
Networks [54.82488484053263]
ビデオ分類のためのディープニューラルネットワークは、敵の操作を受けることができる。
本稿では,フリックング時間摂動を導入することで,ビデオ分類器を騙す操作手法を提案する。
攻撃はいくつかの標的モデルに実装され、攻撃の伝達性が実証された。
論文 参考訳(メタデータ) (2020-02-12T17:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。