論文の概要: NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection
- arxiv url: http://arxiv.org/abs/2306.06885v1
- Date: Mon, 12 Jun 2023 06:06:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 15:59:16.246470
- Title: NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection
- Title(参考訳): NPVForensics:ディープフェイク検出のための非臨界音素とビセムの結合
- Authors: Yu Chen, Yang Yu, Rongrong Ni, Yao Zhao, Haoliang Li
- Abstract要約: 既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
- 参考スコア(独自算出の注目度): 50.33525966541906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deepfake technologies empowered by deep learning are rapidly evolving,
creating new security concerns for society. Existing multimodal detection
methods usually capture audio-visual inconsistencies to expose Deepfake videos.
More seriously, the advanced Deepfake technology realizes the audio-visual
calibration of the critical phoneme-viseme regions, achieving a more realistic
tampering effect, which brings new challenges. To address this problem, we
propose a novel Deepfake detection method to mine the correlation between
Non-critical Phonemes and Visemes, termed NPVForensics. Firstly, we propose the
Local Feature Aggregation block with Swin Transformer (LFA-ST) to construct
non-critical phoneme-viseme and corresponding facial feature streams
effectively. Secondly, we design a loss function for the fine-grained motion of
the talking face to measure the evolutionary consistency of non-critical
phoneme-viseme. Next, we design a phoneme-viseme awareness module for
cross-modal feature fusion and representation alignment, so that the modality
gap can be reduced and the intrinsic complementarity of the two modalities can
be better explored. Finally, a self-supervised pre-training strategy is
leveraged to thoroughly learn the audio-visual correspondences in natural
videos. In this manner, our model can be easily adapted to the downstream
Deepfake datasets with fine-tuning. Extensive experiments on existing
benchmarks demonstrate that the proposed approach outperforms state-of-the-art
methods.
- Abstract(参考訳): ディープラーニングによって強化されたディープフェイク技術は急速に進化し、社会の新しいセキュリティ上の懸念を生み出している。
既存のマルチモーダル検出法は、通常、視聴覚不整合を捉えてディープフェイクビデオを露出させる。
より真面目に言うと、Deepfakeの技術は、重要な音素視線領域の音声・視覚的校正を実現し、より現実的な改ざん効果を実現し、新たな課題をもたらす。
この問題に対処するために,NPVForensics と呼ばれる非クリティカルなPhonemes と Visemes の相関関係を抽出する新しいDeepfake検出手法を提案する。
まず,Swin Transformer (LFA-ST) を用いた局所特徴集約ブロックを提案する。
第二に、非臨界音素ビセムの進化的一貫性を測定するために、話面のきめ細かい動きに対する損失関数を設計する。
次に,モーダリティギャップを小さくし,2つのモーダリティの本質的な相補性をよりよく探求できるように,モーダリティ融合と表現アライメントのための音素-視覚認識モジュールを設計する。
最後に、自己指導型事前学習戦略を利用して、自然映像の音声・視覚対応を徹底的に学習する。
このように、我々のモデルは微調整で下流のDeepfakeデータセットに容易に適応できる。
既存のベンチマークに関する広範な実験は、提案手法が最先端の手法よりも優れていることを示している。
関連論文リスト
- Understanding Audiovisual Deepfake Detection: Techniques, Challenges, Human Factors and Perceptual Insights [49.81915942821647]
ディープラーニングは様々な分野に適用され、ディープフェイク検出への影響は例外ではない。
ディープフェイク(英: Deepfakes)は、政治的偽造、フィッシング、スランダリング、偽情報の拡散に偽装的に使用できる、偽物だが現実的な合成コンテンツである。
本稿では,ディープフェイク検出戦略の有効性を改善し,サイバーセキュリティとメディアの整合性に関する今後の研究を導くことを目的とする。
論文 参考訳(メタデータ) (2024-11-12T09:02:11Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - Conditioned Prompt-Optimization for Continual Deepfake Detection [11.634681724245933]
本稿では,Pmpt2Guardについて紹介する。
我々は,読み出し専用プロンプトを用いた予測アンサンブル手法を活用し,複数のフォワードパスの必要性を軽減した。
提案手法は,ディープフェイク検出に適したテキスト・プロンプト・コンディショニングを利用する。
論文 参考訳(メタデータ) (2024-07-31T12:22:57Z) - The Tug-of-War Between Deepfake Generation and Detection [4.62070292702111]
マルチモーダル生成モデルは急速に進化しており、現実的なビデオやオーディオの生成が急増している。
ディープフェイクビデオは、個人を説得力を持って偽造することができるが、悪用の可能性から特に注目を集めている。
本研究では,ディープフェイク映像の生成と検出の両面を考察し,効果的な対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-07-08T17:49:41Z) - Adversarially Robust Deepfake Detection via Adversarial Feature Similarity Learning [0.0]
ディープフェイク技術は、デジタルコンテンツの信頼性を懸念し、効果的な検出方法の開発を必要としている。
敵は、検出モデルを騙して誤った出力を生成する、小さくて知覚できない摂動でディープフェイクビデオを操作できる。
本稿では,3つの基本的深い特徴学習パラダイムを統合したAFSL(Adversarial Feature similarity Learning)を紹介する。
論文 参考訳(メタデータ) (2024-02-06T11:35:05Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-02T17:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。