論文の概要: M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection
- arxiv url: http://arxiv.org/abs/2104.09770v2
- Date: Wed, 21 Apr 2021 12:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 11:38:14.454419
- Title: M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection
- Title(参考訳): m2tr: ディープフェイク検出用マルチモーダルマルチスケールトランス
- Authors: Junke Wang, Zuxuan Wu, Jingjing Chen, and Yu-Gang Jiang
- Abstract要約: Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
- 参考スコア(独自算出の注目度): 74.19291916812921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread dissemination of forged images generated by Deepfake
techniques has posed a serious threat to the trustworthiness of digital
information. This demands effective approaches that can detect perceptually
convincing Deepfakes generated by advanced manipulation techniques. Most
existing approaches combat Deepfakes with deep neural networks by mapping the
input image to a binary prediction without capturing the consistency among
different pixels. In this paper, we aim to capture the subtle manipulation
artifacts at different scales for Deepfake detection. We achieve this with
transformer models, which have recently demonstrated superior performance in
modeling dependencies between pixels for a variety of recognition tasks in
computer vision. In particular, we introduce a Multi-modal Multi-scale
TRansformer (M2TR), which uses a multi-scale transformer that operates on
patches of different sizes to detect the local inconsistency at different
spatial levels. To improve the detection results and enhance the robustness of
our method to image compression, M2TR also takes frequency information, which
is further combined with RGB features using a cross modality fusion module.
Developing and evaluating Deepfake detection methods requires large-scale
datasets. However, we observe that samples in existing benchmarks contain
severe artifacts and lack diversity. This motivates us to introduce a
high-quality Deepfake dataset, SR-DF, which consists of 4,000 DeepFake videos
generated by state-of-the-art face swapping and facial reenactment methods. On
three Deepfake datasets, we conduct extensive experiments to verify the
effectiveness of the proposed method, which outperforms state-of-the-art
Deepfake detection methods.
- Abstract(参考訳): ディープフェイク技術が生み出した偽画像の普及は、デジタル情報の信頼性に深刻な脅威をもたらしている。
これにより、高度な操作技術によって生じる知覚的に説得力のあるディープフェイクを検出する効果的なアプローチが要求される。
既存のアプローチのほとんどは、入力画像を異なるピクセル間の一貫性を捉えることなくバイナリ予測にマッピングすることで、ディープニューラルネットワークによるディープフェイクと戦う。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
我々は近年,コンピュータビジョンにおける様々な認識タスクに対する画素間の依存関係のモデリングにおいて,優れた性能を示すトランスフォーマーモデルでこれを実現する。
特に,M2TR(Multi-modal Multi-scale TRansformer)を導入し,異なる大きさのパッチで動作するマルチスケールトランスフォーマーを用いて局所的不整合を異なる空間レベルで検出する。
検出結果を改善し,画像圧縮に対するロバスト性を高めるため,m2trは,クロスモダリティ融合モジュールを用いたrgb機能と組み合わせた周波数情報も取得する。
Deepfake検出手法の開発と評価には大規模なデータセットが必要である。
しかし、既存のベンチマークのサンプルには深刻なアーティファクトが含まれ、多様性が欠如している。
これは、最先端の顔交換と顔の再現によって生成される4000のDeepFakeビデオからなる高品質なDeepFakeデータセットSR-DFの導入を動機付けています。
3つのDeepfakeデータセットにおいて,提案手法の有効性を検証するための実験を行った。
関連論文リスト
- FSBI: Deepfakes Detection with Frequency Enhanced Self-Blended Images [17.707379977847026]
本稿では、ディープフェイク検出のための周波数強調自己ブレンド画像手法を提案する。
提案手法はFF++とCeleb-DFデータセットで評価されている。
論文 参考訳(メタデータ) (2024-06-12T20:15:00Z) - Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images [13.089550724738436]
拡散モデル(DM)は画像生成に革命をもたらし、様々な分野にまたがる高品質な画像を生成する。
超現実的画像を作成する能力は、現実的コンテンツと合成的コンテンツを区別する上で大きな課題となる。
この研究は、CLIPモデルによって抽出された画像とテキストの特徴をMLP(Multilayer Perceptron)分類器と統合する堅牢な検出フレームワークを導入する。
論文 参考訳(メタデータ) (2024-04-19T14:30:41Z) - Generalized Deepfakes Detection with Reconstructed-Blended Images and
Multi-scale Feature Reconstruction Network [14.749857283918157]
未確認データセットに対する堅牢な適用性を有するブレンドベース検出手法を提案する。
実験により、この手法により、未知のデータ上でのクロスマニピュレーション検出とクロスデータセット検出の両方のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2023-12-13T09:49:15Z) - DeepFidelity: Perceptual Forgery Fidelity Assessment for Deepfake
Detection [67.3143177137102]
ディープフェイク検出(Deepfake detection)とは、画像やビデオにおいて、人工的に生成された顔や編集された顔を検出すること。
本稿では,実顔と偽顔とを適応的に識別するDeepFidelityという新しいDeepfake検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-07T07:19:45Z) - CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。
既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。
顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文 参考訳(メタデータ) (2023-09-30T12:30:25Z) - MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential
Deepfake Detection [81.59191603867586]
シークエンシャルディープフェイク検出は、回復のための正しいシーケンスで偽の顔領域を特定することを目的としている。
偽画像の復元には、逆変換を実装するための操作モデルの知識が必要である。
顔画像の空間スケールや逐次順列化を扱うマルチコラボレーション・マルチスーパービジョンネットワーク(MMNet)を提案する。
論文 参考訳(メタデータ) (2023-07-06T02:32:08Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。