論文の概要: NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection
- arxiv url: http://arxiv.org/abs/2306.06885v1
- Date: Mon, 12 Jun 2023 06:06:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 15:59:16.246470
- Title: NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection
- Title(参考訳): NPVForensics:ディープフェイク検出のための非臨界音素とビセムの結合
- Authors: Yu Chen, Yang Yu, Rongrong Ni, Yao Zhao, Haoliang Li
- Abstract要約: 既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
- 参考スコア(独自算出の注目度): 50.33525966541906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deepfake technologies empowered by deep learning are rapidly evolving,
creating new security concerns for society. Existing multimodal detection
methods usually capture audio-visual inconsistencies to expose Deepfake videos.
More seriously, the advanced Deepfake technology realizes the audio-visual
calibration of the critical phoneme-viseme regions, achieving a more realistic
tampering effect, which brings new challenges. To address this problem, we
propose a novel Deepfake detection method to mine the correlation between
Non-critical Phonemes and Visemes, termed NPVForensics. Firstly, we propose the
Local Feature Aggregation block with Swin Transformer (LFA-ST) to construct
non-critical phoneme-viseme and corresponding facial feature streams
effectively. Secondly, we design a loss function for the fine-grained motion of
the talking face to measure the evolutionary consistency of non-critical
phoneme-viseme. Next, we design a phoneme-viseme awareness module for
cross-modal feature fusion and representation alignment, so that the modality
gap can be reduced and the intrinsic complementarity of the two modalities can
be better explored. Finally, a self-supervised pre-training strategy is
leveraged to thoroughly learn the audio-visual correspondences in natural
videos. In this manner, our model can be easily adapted to the downstream
Deepfake datasets with fine-tuning. Extensive experiments on existing
benchmarks demonstrate that the proposed approach outperforms state-of-the-art
methods.
- Abstract(参考訳): ディープラーニングによって強化されたディープフェイク技術は急速に進化し、社会の新しいセキュリティ上の懸念を生み出している。
既存のマルチモーダル検出法は、通常、視聴覚不整合を捉えてディープフェイクビデオを露出させる。
より真面目に言うと、Deepfakeの技術は、重要な音素視線領域の音声・視覚的校正を実現し、より現実的な改ざん効果を実現し、新たな課題をもたらす。
この問題に対処するために,NPVForensics と呼ばれる非クリティカルなPhonemes と Visemes の相関関係を抽出する新しいDeepfake検出手法を提案する。
まず,Swin Transformer (LFA-ST) を用いた局所特徴集約ブロックを提案する。
第二に、非臨界音素ビセムの進化的一貫性を測定するために、話面のきめ細かい動きに対する損失関数を設計する。
次に,モーダリティギャップを小さくし,2つのモーダリティの本質的な相補性をよりよく探求できるように,モーダリティ融合と表現アライメントのための音素-視覚認識モジュールを設計する。
最後に、自己指導型事前学習戦略を利用して、自然映像の音声・視覚対応を徹底的に学習する。
このように、我々のモデルは微調整で下流のDeepfakeデータセットに容易に適応できる。
既存のベンチマークに関する広範な実験は、提案手法が最先端の手法よりも優れていることを示している。
関連論文リスト
- Unsupervised Multimodal Deepfake Detection Using Intra- and Cross-Modal
Inconsistencies [16.015769274959098]
ディープフェイクビデオは、刑事司法、民主主義、個人の安全とプライバシーに悪影響を及ぼす可能性のある社会への脅威が増えていることを示している。
本稿では,内部および相互の整合性を測定することによって,ディープフェイク映像を非教師的に検出する手法を提案する。
提案手法は広範囲な実験により検証され,ディープフェイクビデオにおける重要な内的および横断的不整合の存在が実証された。
論文 参考訳(メタデータ) (2023-11-28T03:28:19Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - MIS-AVoiDD: Modality Invariant and Specific Representation for
Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。
既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文 参考訳(メタデータ) (2023-10-03T17:43:24Z) - Improving Cross-dataset Deepfake Detection with Deep Information
Decomposition [57.284370468207214]
ディープフェイク技術は、セキュリティと社会的信頼に重大な脅威をもたらす。
既存の検出方法は、クロスデータセットのシナリオに直面した場合、パフォーマンスの急激な低下に悩まされる。
本稿では,深層情報分解(DID)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T12:30:25Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset
and Multimodal Method for Temporal Forgery Localization [19.490174583625862]
LAV-DF(Localized Audio Visual DeepFake)と呼ばれるコンテンツ駆動型オーディオビジュアルディープフェイクデータセットを導入する。
具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。
提案手法の時間的フォージェリーローカライゼーションとディープフェイク検出タスクに対する強い性能を示す。
論文 参考訳(メタデータ) (2022-04-13T08:02:11Z) - Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-02T17:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。