論文の概要: An Audio-Visual Attention Based Multimodal Network for Fake Talking Face
Videos Detection
- arxiv url: http://arxiv.org/abs/2203.05178v1
- Date: Thu, 10 Mar 2022 06:16:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 15:32:34.065011
- Title: An Audio-Visual Attention Based Multimodal Network for Fake Talking Face
Videos Detection
- Title(参考訳): Fake Talking Face Videos Detection のための視覚的注意に基づくマルチモーダルネットワーク
- Authors: Ganglai Wang, Peng Zhang, Lei Xie, Wei Huang, Yufei Zha and Yanning
Zhang
- Abstract要約: FTFDNetは、音声と視覚表現を取り入れて、より正確なフェイク・トーキング・フェイス・ビデオ検出を実現する。
提案手法の評価は,97%以上の精度で検出できる偽の通話顔映像の検出に優れた性能を示した。
- 参考スコア(独自算出の注目度): 45.210105822471256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DeepFake based digital facial forgery is threatening the public media
security, especially when lip manipulation has been used in talking face
generation, the difficulty of fake video detection is further improved. By only
changing lip shape to match the given speech, the facial features of identity
is hard to be discriminated in such fake talking face videos. Together with the
lack of attention on audio stream as the prior knowledge, the detection failure
of fake talking face generation also becomes inevitable. Inspired by the
decision-making mechanism of human multisensory perception system, which
enables the auditory information to enhance post-sensory visual evidence for
informed decisions output, in this study, a fake talking face detection
framework FTFDNet is proposed by incorporating audio and visual representation
to achieve more accurate fake talking face videos detection. Furthermore, an
audio-visual attention mechanism (AVAM) is proposed to discover more
informative features, which can be seamlessly integrated into any audio-visual
CNN architectures by modularization. With the additional AVAM, the proposed
FTFDNet is able to achieve a better detection performance on the established
dataset (FTFDD). The evaluation of the proposed work has shown an excellent
performance on the detection of fake talking face videos, which is able to
arrive at a detection rate above 97%.
- Abstract(参考訳): ディープフェイクベースのデジタル顔偽造は、特に口唇操作が発話顔生成に使われている場合、公衆メディアのセキュリティを脅かしている。
与えられた発話に合わせて唇の形を変えるだけでは、このような偽の顔ビデオではアイデンティティの表情の特徴を判別することは困難である。
先行知識としての音声ストリームへの注意の欠如とともに、偽の会話顔生成の検出失敗も避けられないものとなる。
本研究は,人間の多感性知覚システムの意思決定機構に触発され,聴覚情報による情報入力後の視覚的エビデンスを強化し,より正確な会話顔検出を実現するために,音声と視覚的表現を取り入れた偽会話顔検出フレームワークFTFDNetを提案する。
さらに、モジュール化により任意のCNNアーキテクチャにシームレスに統合可能な、より情報的な特徴を発見するために、AVAM(Audio-visual attention mechanism)を提案する。
AVAMの追加により、提案されたFTFDNetは、確立されたデータセット(FTFDD)上でより良い検出性能を達成することができる。
提案手法の評価により,偽の顔ビデオの検出において優れた性能を示し,その検出率は97%以上となった。
関連論文リスト
- Vulnerability of Automatic Identity Recognition to Audio-Visual
Deepfakes [13.042731289687918]
本稿では, ディープフェイクSWAN-DFの音声・映像データベースとして初めて, 唇と音声をよく同期させる手法を提案する。
我々は,SpeechBrainのECAPA-TDNNモデルなど,アート話者認識システムの脆弱性を実証する。
論文 参考訳(メタデータ) (2023-11-29T14:18:04Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - FTFDNet: Learning to Detect Talking Face Video Manipulation with
Tri-Modality Interaction [9.780101247514366]
特に唇領域では、フェイク音声映像の光学的流れが乱れている。
より情報的な特徴を発見するために,新しい音声視覚アテンション機構 (AVAM) を提案する。
提案したFTFDNetは、他の最先端のDeepFakeビデオ検出方法よりも優れた検出性能を実現することができる。
論文 参考訳(メタデータ) (2023-07-08T14:45:16Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - Speech2Video: Cross-Modal Distillation for Speech to Video Generation [21.757776580641902]
音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。
この課題は主に、異なる視覚特性を音声信号から切り離すことである。
そこで本研究では,非競合ビデオ入力から無関係な感情・アイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
論文 参考訳(メタデータ) (2021-07-10T10:27:26Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - VideoForensicsHQ: Detecting High-quality Manipulated Face Videos [77.60295082172098]
偽造検知器の性能は、人間の目で見られる人工物の存在にどのように依存するかを示す。
前例のない品質の顔ビデオ偽造検出のための新しいベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2020-05-20T21:17:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。