論文の概要: Detecting Lip-Syncing Deepfakes: Vision Temporal Transformer for Analyzing Mouth Inconsistencies
- arxiv url: http://arxiv.org/abs/2504.01470v1
- Date: Wed, 02 Apr 2025 08:24:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:34.207968
- Title: Detecting Lip-Syncing Deepfakes: Vision Temporal Transformer for Analyzing Mouth Inconsistencies
- Title(参考訳): リップシンクディープフェイク検出:モース不整合解析のための視覚時間変換器
- Authors: Soumyya Kanti Datta, Shan Jia, Siwei Lyu,
- Abstract要約: リップシンクのディープフェイクは、検出するのが最も難しいディープフェイクの1つだ。
本稿では,リップシンクディープフェイクを検出する新しいフレームワークLIPINC-V2を提案する。
本モデルでは,口の動きの短期的・長期的変化を捉えることができる。
- 参考スコア(独自算出の注目度): 29.81606633121959
- License:
- Abstract: Deepfakes are AI-generated media in which the original content is digitally altered to create convincing but manipulated images, videos, or audio. Among the various types of deepfakes, lip-syncing deepfakes are one of the most challenging deepfakes to detect. In these videos, a person's lip movements are synthesized to match altered or entirely new audio using AI models. Therefore, unlike other types of deepfakes, the artifacts in lip-syncing deepfakes are confined to the mouth region, making them more subtle and, thus harder to discern. In this paper, we propose LIPINC-V2, a novel detection framework that leverages a combination of vision temporal transformer with multihead cross-attention to detect lip-syncing deepfakes by identifying spatiotemporal inconsistencies in the mouth region. These inconsistencies appear across adjacent frames and persist throughout the video. Our model can successfully capture both short-term and long-term variations in mouth movement, enhancing its ability to detect these inconsistencies. Additionally, we created a new lip-syncing deepfake dataset, LipSyncTIMIT, which was generated using five state-of-the-art lip-syncing models to simulate real-world scenarios. Extensive experiments on our proposed LipSyncTIMIT dataset and two other benchmark deepfake datasets demonstrate that our model achieves state-of-the-art performance. The code and the dataset are available at https://github.com/skrantidatta/LIPINC-V2 .
- Abstract(参考訳): DeepfakesはAIが生成したメディアで、オリジナルコンテンツはデジタルで修正され、説得力あるが操作された画像、ビデオ、オーディオを生成する。
様々な種類のディープフェイクの中で、リップシンクのディープフェイクは検出するのが最も難しいディープフェイクの1つである。
これらのビデオでは、人の唇の動きを合成して、AIモデルを使用して変更または全く新しいオーディオにマッチさせる。
したがって、他のディープフェイクとは異なり、リップシンクのディープフェイクのアーティファクトは口部に限られており、より微妙に識別しにくくなっている。
本稿では,口領域の時空間不整合を識別することにより,視覚時空間変換器と多頭交叉アテンションを組み合わせた新たな検出フレームワークLIPINC-V2を提案する。
これらの矛盾は隣接するフレームにまたがって現れ、ビデオを通して持続する。
本モデルでは,口の動きの短期的・長期的変化を捉えることができ,これらの不整合を検出する能力を高めることができる。
さらに、私たちは5つの最先端のリップシンクモデルを用いて、実世界のシナリオをシミュレートした新しいリップシンクディープフェイクデータセット、LipSyncTIMITを作成しました。
提案したLipSyncTIMITデータセットおよび他の2つのベンチマークディープフェイクデータセットに対する大規模な実験により、我々のモデルが最先端のパフォーマンスを達成することを示す。
コードとデータセットはhttps://github.com/skrantidatta/LIPINC-V2 で公開されている。
関連論文リスト
- Deepfake detection in videos with multiple faces using geometric-fakeness features [79.16635054977068]
被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師によって使用される。
本研究では,映像中の顔の存在の動的度を特徴付ける幾何学的フェイクネス機能(GFF)を提案する。
我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。
論文 参考訳(メタデータ) (2024-10-10T13:10:34Z) - Lips Are Lying: Spotting the Temporal Inconsistency between Audio and Visual in Lip-Syncing DeepFakes [9.993053682230935]
リップフォージェリービデオは、既存のDeepFake検出方法に深刻な課題をもたらす。
本稿では,唇運動と音声信号の整合性を利用したリップフォージェリー識別のための新しい手法を提案する。
我々のアプローチでは、リップシンク動画の発見において平均95.3%以上の精度が得られている。
論文 参考訳(メタデータ) (2024-01-28T14:22:11Z) - Exposing Lip-syncing Deepfakes from Mouth Inconsistencies [29.81606633121959]
リップシンクのディープフェイク(英: Lip-syncing Deepfake)は、人の唇の動きをAIモデルを使って説得力のある方法で生成し、修正された音声や全く新しい音声にマッチさせるデジタル操作されたビデオである。
本稿では,口内持続性(LIPINC)に基づくリップシンクディープフェイク検出のための新しいLIP同期検出法について述べる。
論文 参考訳(メタデータ) (2024-01-18T16:35:37Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Undercover Deepfakes: Detecting Fake Segments in Videos [1.2609216345578933]
ディープフェイク・ジェネレーションは ディープフェイクの新しいパラダイムだ ほとんどは 真実を歪めるために わずかに修正された 実際のビデオだ
本稿では,フレームとビデオレベルでディープフェイク予測を行うことにより,この問題に対処できるディープフェイク検出手法を提案する。
特に、私たちが取り組むパラダイムは、ディープフェイクのモデレーションのための強力なツールを形成します。
論文 参考訳(メタデータ) (2023-05-11T04:43:10Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z) - Lips Don't Lie: A Generalisable and Robust Approach to Face Forgery
Detection [118.37239586697139]
LipForensicsは、操作の一般化と様々な歪みに耐えられる検出アプローチである。
視覚的音声認識(リリーディング)を行うために、初めて時間ネットワークを事前訓練する。
その後、リアルタイムおよび偽造データの固定された口埋め込みに時間的ネットワークを微調整し、低レベルな操作固有のアーティファクトに過度に適合することなく、口の動きに基づいて偽のビデオを検出する。
論文 参考訳(メタデータ) (2020-12-14T15:53:56Z) - Two-branch Recurrent Network for Isolating Deepfakes in Videos [17.59209853264258]
本稿では,2分岐ネットワーク構造に基づくディープフェイク検出手法を提案する。
1つのブランチは元の情報を伝達し、もう1つのブランチは顔の内容を抑制する。
当社の2つの新しいコンポーネントは、FaceForensics++、Celeb-DF、FacebookのDFDCプレビューベンチマークで有望な結果を示している。
論文 参考訳(メタデータ) (2020-08-08T01:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。