論文の概要: FTFDNet: Learning to Detect Talking Face Video Manipulation with
Tri-Modality Interaction
- arxiv url: http://arxiv.org/abs/2307.03990v1
- Date: Sat, 8 Jul 2023 14:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 16:07:04.230727
- Title: FTFDNet: Learning to Detect Talking Face Video Manipulation with
Tri-Modality Interaction
- Title(参考訳): ftfdnet: tri-modality interactionによる会話型ビデオ操作検出のための学習
- Authors: Ganglai Wang, Peng Zhang, Junwen Xiong, Feihan Yang, Wei Huang, and
Yufei Zha
- Abstract要約: 特に唇領域では、フェイク音声映像の光学的流れが乱れている。
より情報的な特徴を発見するために,新しい音声視覚アテンション機構 (AVAM) を提案する。
提案したFTFDNetは、他の最先端のDeepFakeビデオ検出方法よりも優れた検出性能を実現することができる。
- 参考スコア(独自算出の注目度): 9.780101247514366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DeepFake based digital facial forgery is threatening public media security,
especially when lip manipulation has been used in talking face generation, and
the difficulty of fake video detection is further improved. By only changing
lip shape to match the given speech, the facial features of identity are hard
to be discriminated in such fake talking face videos. Together with the lack of
attention on audio stream as the prior knowledge, the detection failure of fake
talking face videos also becomes inevitable. It's found that the optical flow
of the fake talking face video is disordered especially in the lip region while
the optical flow of the real video changes regularly, which means the motion
feature from optical flow is useful to capture manipulation cues. In this
study, a fake talking face detection network (FTFDNet) is proposed by
incorporating visual, audio and motion features using an efficient cross-modal
fusion (CMF) module. Furthermore, a novel audio-visual attention mechanism
(AVAM) is proposed to discover more informative features, which can be
seamlessly integrated into any audio-visual CNN architecture by modularization.
With the additional AVAM, the proposed FTFDNet is able to achieve a better
detection performance than other state-of-the-art DeepFake video detection
methods not only on the established fake talking face detection dataset (FTFDD)
but also on the DeepFake video detection datasets (DFDC and DF-TIMIT).
- Abstract(参考訳): ディープフェイクベースのデジタル顔偽造は、特に口唇操作が発話顔生成に使われている場合、公共メディアのセキュリティを脅かしており、偽ビデオ検出の難しさがさらに改善されている。
与えられた発話に合わせて唇の形を変えるだけでは、その顔の特徴を偽の顔ビデオで判別することは困難である。
先行知識としての音声ストリームへの注意の欠如とともに、フェイクな会話ビデオの検出失敗も避けられないものとなった。
実際の映像の光学的流れが定期的に変化する間、特に唇領域ではフェイク音声映像の光学的流れが乱れ、つまり、光学的流れからの運動特徴が操作の手がかりを捉えるのに有用であることがわかった。
本研究では,効率的なクロスモーダル融合 (CMF) モジュールを用いて,視覚・音声・動作特徴を取り入れた偽音声検出ネットワーク(FTFDNet)を提案する。
さらに,モジュール化によって任意の視聴覚cnnアーキテクチャにシームレスに統合可能な,より有用な機能発見のための新しいオーディオ・ビジュアル・アテンション機構 (avam) を提案する。
AVAMの追加により、提案したFTFDNetは、確立されたフェイク音声検出データセット(FTFDD)だけでなく、DeepFakeビデオ検出データセット(DFDCとDF-TIMIT)上でも、最先端のDeepFakeビデオ検出方法よりも優れた検出性能を実現することができる。
関連論文リスト
- Deepfake detection in videos with multiple faces using geometric-fakeness features [79.16635054977068]
被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師によって使用される。
本研究では,映像中の顔の存在の動的度を特徴付ける幾何学的フェイクネス機能(GFF)を提案する。
我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。
論文 参考訳(メタデータ) (2024-10-10T13:10:34Z) - GRACE: Graph-Regularized Attentive Convolutional Entanglement with Laplacian Smoothing for Robust DeepFake Video Detection [7.591187423217017]
本稿では,グラフラプラシアンを用いたグラフ畳み込みネットワークに基づく,堅牢なDeepFakeビデオ検出手法を提案する。
提案手法は,雑音の多い顔シーケンス下でのDeepFakeビデオ検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-28T14:17:16Z) - Vulnerability of Automatic Identity Recognition to Audio-Visual
Deepfakes [13.042731289687918]
本稿では, ディープフェイクSWAN-DFの音声・映像データベースとして初めて, 唇と音声をよく同期させる手法を提案する。
我々は,SpeechBrainのECAPA-TDNNモデルなど,アート話者認識システムの脆弱性を実証する。
論文 参考訳(メタデータ) (2023-11-29T14:18:04Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Mover: Mask and Recovery based Facial Part Consistency Aware Method for
Deepfake Video Detection [33.29744034340998]
Moverは新しいDeepfake検出モデルで、不特定の顔の部分の不整合を悪用する。
本稿では,事前学習されたエンコーダとマスク付きオートエンコーダを利用するデュアルネットワークを用いた新しいモデルを提案する。
我々の標準ベンチマーク実験は、Moverが極めて効果的であることを示している。
論文 参考訳(メタデータ) (2023-03-03T06:57:22Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - An Audio-Visual Attention Based Multimodal Network for Fake Talking Face
Videos Detection [45.210105822471256]
FTFDNetは、音声と視覚表現を取り入れて、より正確なフェイク・トーキング・フェイス・ビデオ検出を実現する。
提案手法の評価は,97%以上の精度で検出できる偽の通話顔映像の検出に優れた性能を示した。
論文 参考訳(メタデータ) (2022-03-10T06:16:11Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。