論文の概要: Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection
- arxiv url: http://arxiv.org/abs/2403.10261v2
- Date: Wed, 20 Mar 2024 13:15:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 13:39:48.424631
- Title: Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection
- Title(参考訳): 顔深度検出のためのThumbnail Layoutによる時空間不整合の学習
- Authors: Yuting Xu, Jian Liang, Lijun Sheng, Xiao-Yu Zhang,
- Abstract要約: 社会とサイバーセキュリティに対するディープフェイクの脅威は、重大な公衆の不安を引き起こしている。
本稿では,Thumbnail Layout(TALL)という,エレガントでシンプルだが効果的な戦略を紹介する。
TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
- 参考スコア(独自算出の注目度): 41.35861722481721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deepfake threats to society and cybersecurity have provoked significant public apprehension, driving intensified efforts within the realm of deepfake video detection. Current video-level methods are mostly based on {3D CNNs} resulting in high computational demands, although have achieved good performance. This paper introduces an elegantly simple yet effective strategy named Thumbnail Layout (TALL), which transforms a video clip into a pre-defined layout to realize the preservation of spatial and temporal dependencies. This transformation process involves sequentially masking frames at the same positions within each frame. These frames are then resized into sub-frames and reorganized into the predetermined layout, forming thumbnails. TALL is model-agnostic and has remarkable simplicity, necessitating only minimal code modifications. Furthermore, we introduce a graph reasoning block (GRB) and semantic consistency (SC) loss to strengthen TALL, culminating in TALL++. GRB enhances interactions between different semantic regions to capture semantic-level inconsistency clues. The semantic consistency loss imposes consistency constraints on semantic features to improve model generalization ability. Extensive experiments on intra-dataset, cross-dataset, diffusion-generated image detection, and deepfake generation method recognition show that TALL++ achieves results surpassing or comparable to the state-of-the-art methods, demonstrating the effectiveness of our approaches for various deepfake detection problems. The code is available at https://github.com/rainy-xu/TALL4Deepfake.
- Abstract(参考訳): 社会とサイバーセキュリティに対するディープフェイクの脅威は、ディープフェイクビデオ検出の領域内での努力を激化させ、重大な公衆の不安を引き起こしている。
現在のビデオレベル法は主に3D CNNに基づいており、高い計算要求が生じるが、性能は良好である。
本稿では,ビデオクリップを予め定義されたレイアウトに変換することによって,空間的および時間的依存関係の保存を実現する,Thumbnail Layout (TALL) というエレガントでシンプルだが効果的な戦略を提案する。
この変換プロセスは、各フレーム内の同じ位置にあるフレームを順次マスキングする。
これらのフレームをサブフレームにリサイズし、所定のレイアウトに再編成し、サムネイルを形成する。
TALLはモデルに依存しず、驚くほどシンプルで、最小限のコード修正しか必要としない。
さらに,グラフ推論ブロック (GRB) と意味整合性 (SC) の損失を導入し,TALL++ に終止符を打つ。
GRBはセマンティック領域間の相互作用を強化し、セマンティックレベルの不整合の手がかりをキャプチャする。
セマンティックな一貫性の喪失は、モデルの一般化能力を改善するためにセマンティックな特徴に一貫性の制約を課します。
データベース内, クロスデータセット, 拡散生成画像検出, およびディープフェイク生成法認識に関する広範囲な実験により, TALL++は, 最先端の手法に匹敵する結果を達成し, 様々なディープフェイク検出問題に対する我々のアプローチの有効性を実証した。
コードはhttps://github.com/rainy-xu/TALL4Deepfake.comで公開されている。
関連論文リスト
- UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - GRACE: Graph-Regularized Attentive Convolutional Entanglement with Laplacian Smoothing for Robust DeepFake Video Detection [7.591187423217017]
本稿では,グラフラプラシアンを用いたグラフ畳み込みネットワークに基づく,堅牢なDeepFakeビデオ検出手法を提案する。
提案手法は,雑音の多い顔シーケンス下でのDeepFakeビデオ検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-28T14:17:16Z) - TALL: Thumbnail Layout for Deepfake Video Detection [84.12790488801264]
本稿では,Thumbnail Layout(TALL)という,シンプルだが効果的な戦略を紹介する。
TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
視覚変換器の成功に触発されて,我々はTALLをSwin Transformerに組み込み,効率的かつ効果的なTALL-Swin法を構築した。
論文 参考訳(メタデータ) (2023-07-14T17:27:22Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Block shuffling learning for Deepfake Detection [9.180904212520355]
畳み込みニューラルネットワーク(CNN)に基づくディープフェイク検出手法は精度が高いことを示した。
これらの手法は、未知の偽造法や共通変換に直面すると、しばしば性能が低下する。
本稿では,この問題に対処するためのブロックシャッフル正規化手法を提案する。
論文 参考訳(メタデータ) (2022-02-06T17:16:46Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。