論文の概要: Exposing Lip-syncing Deepfakes from Mouth Inconsistencies
- arxiv url: http://arxiv.org/abs/2401.10113v1
- Date: Thu, 18 Jan 2024 16:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:00:42.957189
- Title: Exposing Lip-syncing Deepfakes from Mouth Inconsistencies
- Title(参考訳): 口内不一致による口唇同期ディープフェイクの暴露
- Authors: Soumyya Kanti Datta, Shan Jia, Siwei Lyu
- Abstract要約: リップシンクのディープフェイク(英: Lip-syncing Deepfake)は、人の唇の動きをAIモデルを使って説得力のある方法で生成し、修正された音声や全く新しい音声にマッチさせるデジタル操作されたビデオである。
本稿では,口領域の時間的不整合を識別し,口内不整合(LIPINC)に基づく口内深度検出法を提案する。
我々のモデルはこれらの不規則性をうまく捉え、いくつかのベンチマークディープフェイクデータセットで最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 33.51027054306748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A lip-syncing deepfake is a digitally manipulated video in which a person's
lip movements are created convincingly using AI models to match altered or
entirely new audio. Lip-syncing deepfakes are a dangerous type of deepfakes as
the artifacts are limited to the lip region and more difficult to discern. In
this paper, we describe a novel approach, LIP-syncing detection based on mouth
INConsistency (LIPINC), for lip-syncing deepfake detection by identifying
temporal inconsistencies in the mouth region. These inconsistencies are seen in
the adjacent frames and throughout the video. Our model can successfully
capture these irregularities and outperforms the state-of-the-art methods on
several benchmark deepfake datasets.
- Abstract(参考訳): リップシンクのディープフェイク(英: Lip-syncing Deepfake)は、人の唇の動きをAIモデルを使って説得力のある方法で生成し、修正された音声や全く新しい音声にマッチさせるデジタル操作されたビデオである。
リップ同期ディープフェイクは、人工物がリップ領域に限定され、識別が難しいため、危険なタイプのディープフェイクである。
本稿では,口内領域の時間的不整合を同定し,口内不一致(lipinc)に基づくリップ同期検出法を提案する。
これらの矛盾は、隣接するフレームやビデオ全体に見られる。
我々のモデルはこれらの不規則性をうまく捉え、いくつかのベンチマークディープフェイクデータセットで最先端の手法より優れている。
関連論文リスト
- Deepfake detection in videos with multiple faces using geometric-fakeness features [79.16635054977068]
被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師によって使用される。
本研究では,映像中の顔の存在の動的度を特徴付ける幾何学的フェイクネス機能(GFF)を提案する。
我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。
論文 参考訳(メタデータ) (2024-10-10T13:10:34Z) - Shaking the Fake: Detecting Deepfake Videos in Real Time via Active Probes [3.6308756891251392]
生成AIの一種であるリアルタイムディープフェイク(Real-time Deepfake)は、ビデオ内の既存のコンテンツ(例えば、顔を別のものと交換する)を「生成する」ことができる。
金融詐欺や政治的誤報など、悪意ある目的のためにディープフェイクビデオを作るのに誤用されている。
本研究では,物理干渉に適応できないディープフェイクモデルを利用した新しいリアルタイムディープフェイク検出手法であるSFakeを提案する。
論文 参考訳(メタデータ) (2024-09-17T04:58:30Z) - Lips Are Lying: Spotting the Temporal Inconsistency between Audio and Visual in Lip-Syncing DeepFakes [9.993053682230935]
リップフォージェリービデオは、既存のDeepFake検出方法に深刻な課題をもたらす。
本稿では,唇運動と音声信号の整合性を利用したリップフォージェリー識別のための新しい手法を提案する。
我々のアプローチでは、リップシンク動画の発見において平均95.3%以上の精度が得られている。
論文 参考訳(メタデータ) (2024-01-28T14:22:11Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Lips Don't Lie: A Generalisable and Robust Approach to Face Forgery
Detection [118.37239586697139]
LipForensicsは、操作の一般化と様々な歪みに耐えられる検出アプローチである。
視覚的音声認識(リリーディング)を行うために、初めて時間ネットワークを事前訓練する。
その後、リアルタイムおよび偽造データの固定された口埋め込みに時間的ネットワークを微調整し、低レベルな操作固有のアーティファクトに過度に適合することなく、口の動きに基づいて偽のビデオを検出する。
論文 参考訳(メタデータ) (2020-12-14T15:53:56Z) - A Lip Sync Expert Is All You Need for Speech to Lip Generation In The
Wild [37.37319356008348]
ターゲット音声セグメントにマッチする任意のアイデンティティの話し顔ビデオのリップ同期。
これに関連する重要な理由を同定し、強力なリップシンク識別器から学習することで解決する。
制約のないビデオのリップ同期を正確に測定するための,厳密な評価ベンチマークとメトリクスを提案する。
論文 参考訳(メタデータ) (2020-08-23T11:01:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。