論文の概要: Lips Are Lying: Spotting the Temporal Inconsistency between Audio and Visual in Lip-Syncing DeepFakes
- arxiv url: http://arxiv.org/abs/2401.15668v2
- Date: Mon, 28 Oct 2024 08:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:05.390377
- Title: Lips Are Lying: Spotting the Temporal Inconsistency between Audio and Visual in Lip-Syncing DeepFakes
- Title(参考訳): リップシンク・ディープフェイクにおける音声と視覚の時間的矛盾
- Authors: Weifeng Liu, Tianyi She, Jiawei Liu, Boheng Li, Dongyu Yao, Ziyou Liang, Run Wang,
- Abstract要約: リップフォージェリービデオは、既存のDeepFake検出方法に深刻な課題をもたらす。
本稿では,唇運動と音声信号の整合性を利用したリップフォージェリー識別のための新しい手法を提案する。
我々のアプローチでは、リップシンク動画の発見において平均95.3%以上の精度が得られている。
- 参考スコア(独自算出の注目度): 9.993053682230935
- License:
- Abstract: In recent years, DeepFake technology has achieved unprecedented success in high-quality video synthesis, but these methods also pose potential and severe security threats to humanity. DeepFake can be bifurcated into entertainment applications like face swapping and illicit uses such as lip-syncing fraud. However, lip-forgery videos, which neither change identity nor have discernible visual artifacts, present a formidable challenge to existing DeepFake detection methods. Our preliminary experiments have shown that the effectiveness of the existing methods often drastically decrease or even fail when tackling lip-syncing videos. In this paper, for the first time, we propose a novel approach dedicated to lip-forgery identification that exploits the inconsistency between lip movements and audio signals. We also mimic human natural cognition by capturing subtle biological links between lips and head regions to boost accuracy. To better illustrate the effectiveness and advances of our proposed method, we create a high-quality LipSync dataset, AVLips, by employing the state-of-the-art lip generators. We hope this high-quality and diverse dataset could be well served the further research on this challenging and interesting field. Experimental results show that our approach gives an average accuracy of more than 95.3% in spotting lip-syncing videos, significantly outperforming the baselines. Extensive experiments demonstrate the capability to tackle deepfakes and the robustness in surviving diverse input transformations. Our method achieves an accuracy of up to 90.2% in real-world scenarios (e.g., WeChat video call) and shows its powerful capabilities in real scenario deployment. To facilitate the progress of this research community, we release all resources at https://github.com/AaronComo/LipFD.
- Abstract(参考訳): 近年、DeepFakeの技術は高品質のビデオ合成において前例のない成功を収めている。
DeepFakeは、顔交換のようなエンターテイメントアプリケーションや、リップシンキング詐欺のような不正な利用に分岐することができる。
しかし、識別性も識別可能な視覚的アーティファクトも変更しないリップフォージェリービデオは、既存のDeepFake検出方法に深刻な課題をもたらす。
予備実験の結果,リップシンクビデオの処理において,既存の手法の有効性が著しく低下するか,あるいは失敗することさえあることがわかった。
本稿では,唇運動と音声信号の整合性を利用した唇偽造識別のための新しい手法を提案する。
また, 唇と頭部の微妙な生物学的リンクを捉えて, 人間の自然な認識を模倣し, 精度を高めた。
提案手法の有効性と進歩を明らかにするため,最先端のリップジェネレータを用いて高品質なLipSyncデータセットであるAVLipsを開発した。
この高品質で多様なデータセットが、この挑戦的で興味深い分野のさらなる研究に役立つことを期待しています。
実験結果から, 口唇同期ビデオにおける平均精度は95.3%以上であり, ベースラインを著しく上回ることがわかった。
大規模な実験は、生き残った多様な入力変換におけるディープフェイクとロバスト性に取り組む能力を示す。
提案手法は,実シナリオ(例えばWeChatビデオ通話)における最大90.2%の精度を実現し,実シナリオ展開におけるその強力な能力を示す。
この研究コミュニティの進展を促進するため、私たちはhttps://github.com/AaronComo/LipFD.comですべてのリソースをリリースします。
関連論文リスト
- Exposing Lip-syncing Deepfakes from Mouth Inconsistencies [29.81606633121959]
リップシンクのディープフェイク(英: Lip-syncing Deepfake)は、人の唇の動きをAIモデルを使って説得力のある方法で生成し、修正された音声や全く新しい音声にマッチさせるデジタル操作されたビデオである。
本稿では,口内持続性(LIPINC)に基づくリップシンクディープフェイク検出のための新しいLIP同期検出法について述べる。
論文 参考訳(メタデータ) (2024-01-18T16:35:37Z) - Diff2Lip: Audio Conditioned Diffusion Models for Lip-Synchronization [38.64540967776744]
Diff2Lip(ディフ2リップ)は、これらの特性を保ちながら唇の同期を行うことができる、オーディオ条件の拡散ベースモデルである。
本稿では,Voxceleb2 と LRW のデータセット上で,再構成(音声-ビデオ入力)とクロス設定(音声-ビデオ入力)の両方について結果を示す。
論文 参考訳(メタデータ) (2023-08-18T17:59:40Z) - Leveraging Visemes for Better Visual Speech Representation and Lip
Reading [2.7836084563851284]
そこで本研究では,音声学的に類似した唇形状群であるビセムを利用して,より差別的で堅牢な唇読解ビデオ特徴を抽出する手法を提案する。
提案手法は,従来手法と比較して,唇読解単語誤り率(WER)を9.1%削減する。
論文 参考訳(メタデータ) (2023-07-19T17:38:26Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Seeing What You Said: Talking Face Generation Guided by a Lip Reading
Expert [89.07178484337865]
音声合成は、コヒーレントな音声入力が与えられた唇に関する顔の動きを再構成する。
従来の研究では、唇音の同期と視覚的品質が重要であった。
そこで我々は, 唇読解の専門家を用いて, 生成した唇領域の知性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-29T07:51:07Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-02T17:44:40Z) - Leveraging Real Talking Faces via Self-Supervision for Robust Forgery
Detection [112.96004727646115]
本研究では,実話を用いた顔操作映像の検出手法を開発した。
本手法は, クロスマニピュレーションの一般化とロバストネス実験における最先端性能を実現する。
以上の結果から、より堅牢な顔偽造検知器の開発には、自然ビデオと未表示ビデオの活用が有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2022-01-18T17:14:54Z) - Lips Don't Lie: A Generalisable and Robust Approach to Face Forgery
Detection [118.37239586697139]
LipForensicsは、操作の一般化と様々な歪みに耐えられる検出アプローチである。
視覚的音声認識(リリーディング)を行うために、初めて時間ネットワークを事前訓練する。
その後、リアルタイムおよび偽造データの固定された口埋め込みに時間的ネットワークを微調整し、低レベルな操作固有のアーティファクトに過度に適合することなく、口の動きに基づいて偽のビデオを検出する。
論文 参考訳(メタデータ) (2020-12-14T15:53:56Z) - ID-Reveal: Identity-aware DeepFake Video Detection [24.79483180234883]
ID-Reveal(ID-Reveal)は、時間的顔の特徴を学習する新しいアプローチだ。
偽物のトレーニングデータは必要ありませんが、実際のビデオでトレーニングするだけです。
高圧縮映像における顔再現の精度は平均15%以上向上した。
論文 参考訳(メタデータ) (2020-12-04T10:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。