論文の概要: Self-supervised Transformer for Deepfake Detection
- arxiv url: http://arxiv.org/abs/2203.01265v1
- Date: Wed, 2 Mar 2022 17:44:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 15:36:04.522157
- Title: Self-supervised Transformer for Deepfake Detection
- Title(参考訳): ディープフェイク検出用自己教師形変圧器
- Authors: Hanqing Zhao, Wenbo Zhou, Dongdong Chen, Weiming Zhang and Nenghai Yu
- Abstract要約: 現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
- 参考スコア(独自算出の注目度): 112.81127845409002
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The fast evolution and widespread of deepfake techniques in real-world
scenarios require stronger generalization abilities of face forgery detectors.
Some works capture the features that are unrelated to method-specific
artifacts, such as clues of blending boundary, accumulated up-sampling, to
strengthen the generalization ability. However, the effectiveness of these
methods can be easily corrupted by post-processing operations such as
compression. Inspired by transfer learning, neural networks pre-trained on
other large-scale face-related tasks may provide useful features for deepfake
detection. For example, lip movement has been proved to be a kind of robust and
good-transferring highlevel semantic feature, which can be learned from the
lipreading task. However, the existing method pre-trains the lip feature
extraction model in a supervised manner, which requires plenty of human
resources in data annotation and increases the difficulty of obtaining training
data. In this paper, we propose a self-supervised transformer based
audio-visual contrastive learning method. The proposed method learns mouth
motion representations by encouraging the paired video and audio
representations to be close while unpaired ones to be diverse. After
pre-training with our method, the model will then be partially fine-tuned for
deepfake detection task. Extensive experiments show that our self-supervised
method performs comparably or even better than the supervised pre-training
counterpart.
- Abstract(参考訳): 現実世界のシナリオにおける急速な進化とディープフェイク技術の普及は、顔偽造検知器のより強力な一般化能力を必要とする。
ブレンディング境界の手がかりやアップサンプリングの蓄積など、メソッド固有のアーティファクトとは無関係な特徴を捉えて一般化能力を強化する研究もある。
しかし,これらの手法の有効性は,圧縮などの後処理操作によって容易に劣化させることができる。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
例えば、唇の動きは、リップ読み取りタスクから学べる、堅牢で優れた高レベルの意味論的な特徴の一種であることが証明されている。
しかし,既存の手法では,データアノテーションに多くの人的資源が必要であり,訓練データの取得が困難であるリップ特徴抽出モデルを教師付きで事前訓練する。
本稿では,自己教師付きトランスベース音声・視覚コントラスト学習法を提案する。
提案手法は,ペアビデオと音声の表現に近づき,不自由な表現を多様にすることで,口の動きの表現を学習する。
提案手法で事前学習を行った後, 深度検出タスクのために, モデルの一部を微調整する。
広範な実験により, 自己教師付き手法は教師付き事前学習法と同等かそれ以上の性能を示す。
関連論文リスト
- Towards General Deepfake Detection with Dynamic Curriculum [4.622705420257596]
本稿では,カリキュラム学習パラダイムを用いたディープフェイク検出器のトレーニングにサンプル硬さを導入することを提案する。
我々は,このモデルがトレーニング中に徐々にハードサンプルに焦点をあてる,新しい単純かつ効果的な戦略である動的顔面法学カリキュラム(DFFC)を提示する。
総合的な実験により,DFFCは各種のエンド・ツー・エンドディープフェイク検出器の内・クロス・データセット性能を向上できることが示された。
論文 参考訳(メタデータ) (2024-10-15T00:58:09Z) - Semantics-Oriented Multitask Learning for DeepFake Detection: A Joint Embedding Approach [77.65459419417533]
本稿ではセマンティクス指向のDeepFake検出タスクをサポートするための自動データセット拡張手法を提案する。
また,顔画像とそれに対応するラベルを併用して予測を行う。
提案手法は,DeepFake検出の一般化性を向上し,人間の理解可能な説明を提供することで,ある程度のモデル解釈を行う。
論文 参考訳(メタデータ) (2024-08-29T07:11:50Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Adversarially Robust Deepfake Detection via Adversarial Feature Similarity Learning [0.0]
ディープフェイク技術は、デジタルコンテンツの信頼性を懸念し、効果的な検出方法の開発を必要としている。
敵は、検出モデルを騙して誤った出力を生成する、小さくて知覚できない摂動でディープフェイクビデオを操作できる。
本稿では,3つの基本的深い特徴学習パラダイムを統合したAFSL(Adversarial Feature similarity Learning)を紹介する。
論文 参考訳(メタデータ) (2024-02-06T11:35:05Z) - FakeOut: Leveraging Out-of-domain Self-supervision for Multi-modal Video
Deepfake Detection [10.36919027402249]
人間の話し言葉の合成ビデオは、説得力のある方法で誤情報を拡散するのに使用することができる。
FakeOutは、事前トレーニングフェーズと適応フェーズの両方でマルチモーダルデータに依存する、新しいアプローチである。
提案手法は,オーディオ・ビジュアル・データセット上でのクロスデータセットの一般化を実現する。
論文 参考訳(メタデータ) (2022-12-01T18:56:31Z) - DeepfakeUCL: Deepfake Detection via Unsupervised Contrastive Learning [20.94569893388119]
教師なしコントラスト学習による新しいディープフェイク検出手法を設計する。
本手法は最先端の教師技術に匹敵する検出性能を示す。
論文 参考訳(メタデータ) (2021-04-23T09:48:10Z) - Towards Generalizable and Robust Face Manipulation Detection via
Bag-of-local-feature [55.47546606878931]
そこで本稿では,局所的特徴の一般化能力とロバスト性を向上する顔の操作検出手法を提案する。
具体的には、パッチ間関係をエンコードするためにbag-of-featureアプローチを使ってトランスフォーマーを拡張し、明示的な監督なしにローカルな偽造機能を学ぶことができる。
論文 参考訳(メタデータ) (2021-03-14T12:50:48Z) - Lips Don't Lie: A Generalisable and Robust Approach to Face Forgery
Detection [118.37239586697139]
LipForensicsは、操作の一般化と様々な歪みに耐えられる検出アプローチである。
視覚的音声認識(リリーディング)を行うために、初めて時間ネットワークを事前訓練する。
その後、リアルタイムおよび偽造データの固定された口埋め込みに時間的ネットワークを微調整し、低レベルな操作固有のアーティファクトに過度に適合することなく、口の動きに基づいて偽のビデオを検出する。
論文 参考訳(メタデータ) (2020-12-14T15:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。