Fugu-MT 論文翻訳(概要): Exposing Lip-syncing Deepfakes from Mouth Inconsistencies

論文の概要: Exposing Lip-syncing Deepfakes from Mouth Inconsistencies

arxiv url: http://arxiv.org/abs/2401.10113v1
Date: Thu, 18 Jan 2024 16:35:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 16:00:42.957189
Title: Exposing Lip-syncing Deepfakes from Mouth Inconsistencies
Title（参考訳）: 口内不一致による口唇同期ディープフェイクの暴露
Authors: Soumyya Kanti Datta, Shan Jia, Siwei Lyu
Abstract要約: リップシンクのディープフェイク(英: Lip-syncing Deepfake)は、人の唇の動きをAIモデルを使って説得力のある方法で生成し、修正された音声や全く新しい音声にマッチさせるデジタル操作されたビデオである。本稿では,口領域の時間的不整合を識別し,口内不整合(LIPINC)に基づく口内深度検出法を提案する。我々のモデルはこれらの不規則性をうまく捉え、いくつかのベンチマークディープフェイクデータセットで最先端の手法より優れている。
参考スコア（独自算出の注目度）: 33.51027054306748
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A lip-syncing deepfake is a digitally manipulated video in which a person's lip movements are created convincingly using AI models to match altered or entirely new audio. Lip-syncing deepfakes are a dangerous type of deepfakes as the artifacts are limited to the lip region and more difficult to discern. In this paper, we describe a novel approach, LIP-syncing detection based on mouth INConsistency (LIPINC), for lip-syncing deepfake detection by identifying temporal inconsistencies in the mouth region. These inconsistencies are seen in the adjacent frames and throughout the video. Our model can successfully capture these irregularities and outperforms the state-of-the-art methods on several benchmark deepfake datasets.
Abstract（参考訳）: リップシンクのディープフェイク(英: Lip-syncing Deepfake)は、人の唇の動きをAIモデルを使って説得力のある方法で生成し、修正された音声や全く新しい音声にマッチさせるデジタル操作されたビデオである。リップ同期ディープフェイクは、人工物がリップ領域に限定され、識別が難しいため、危険なタイプのディープフェイクである。本稿では,口内領域の時間的不整合を同定し,口内不一致(lipinc)に基づくリップ同期検出法を提案する。これらの矛盾は、隣接するフレームやビデオ全体に見られる。我々のモデルはこれらの不規則性をうまく捉え、いくつかのベンチマークディープフェイクデータセットで最先端の手法より優れている。

関連論文リスト

Assessing Identity Leakage in Talking Face Generation: Metrics and Evaluation Framework [56.30142869506262]
塗り絵ベースの話し顔生成は、唇の動きだけを変更しながらポーズ、照明、ジェスチャーなどの映像の詳細を保存することを目的としている。この機構は、生成した唇が、駆動オーディオのみの影響ではなく、参照画像の影響を受けるリップリークを導入することができる。そこで本研究では,唇の漏れを分析し定量化するためのシステム評価手法を提案する。
論文参考訳（メタデータ） (2025-11-05T17:11:53Z)
Detecting Lip-Syncing Deepfakes: Vision Temporal Transformer for Analyzing Mouth Inconsistencies [29.81606633121959]
リップシンクのディープフェイクは、検出するのが最も難しいディープフェイクの1つだ。本稿では,リップシンクディープフェイクを検出する新しいフレームワークLIPINC-V2を提案する。本モデルでは,口の動きの短期的・長期的変化を捉えることができる。
論文参考訳（メタデータ） (2025-04-02T08:24:06Z)
LASER: Lip Landmark Assisted Speaker Detection for Robustness [30.82311863795508]
我々はロバストネスのためのリップランドマーク支援話者検出法(LASER)を提案する。 LASERは、唇の動きをオーディオに合わせることで、複雑な視覚シーンで話す個人を識別することを目的としている。実験により、LASERは最先端のモデル、特に非同期音声や視覚のシナリオで性能が向上することが示された。
論文参考訳（メタデータ） (2025-01-21T05:29:34Z)
Deepfake detection in videos with multiple faces using geometric-fakeness features [79.16635054977068]
被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師によって使用される。本研究では,映像中の顔の存在の動的度を特徴付ける幾何学的フェイクネス機能(GFF)を提案する。我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。
論文参考訳（メタデータ） (2024-10-10T13:10:34Z)
Shaking the Fake: Detecting Deepfake Videos in Real Time via Active Probes [3.6308756891251392]
生成AIの一種であるリアルタイムディープフェイク(Real-time Deepfake)は、ビデオ内の既存のコンテンツ(例えば、顔を別のものと交換する)を「生成する」ことができる。金融詐欺や政治的誤報など、悪意ある目的のためにディープフェイクビデオを作るのに誤用されている。本研究では,物理干渉に適応できないディープフェイクモデルを利用した新しいリアルタイムディープフェイク検出手法であるSFakeを提案する。
論文参考訳（メタデータ） (2024-09-17T04:58:30Z)
Lips Are Lying: Spotting the Temporal Inconsistency between Audio and Visual in Lip-Syncing DeepFakes [9.993053682230935]
リップフォージェリービデオは、既存のDeepFake検出方法に深刻な課題をもたらす。本稿では,唇運動と音声信号の整合性を利用したリップフォージェリー識別のための新しい手法を提案する。我々のアプローチでは、リップシンク動画の発見において平均95.3%以上の精度が得られている。
論文参考訳（メタデータ） (2024-01-28T14:22:11Z)
Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文参考訳（メタデータ） (2022-12-09T16:32:46Z)
Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。未探索の音声-顔のマッチングビューからディープフェイク検出を行う。我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文参考訳（メタデータ） (2022-03-04T09:08:50Z)
Watch Those Words: Video Falsification Detection Using Word-Conditioned Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文参考訳（メタデータ） (2021-12-21T01:57:04Z)
Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。我々は1枚の写真のみを識別基準として生の顔画像を操作する。私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文参考訳（メタデータ） (2021-04-22T15:10:26Z)
Lips Don't Lie: A Generalisable and Robust Approach to Face Forgery Detection [118.37239586697139]
LipForensicsは、操作の一般化と様々な歪みに耐えられる検出アプローチである。視覚的音声認識(リリーディング)を行うために、初めて時間ネットワークを事前訓練する。その後、リアルタイムおよび偽造データの固定された口埋め込みに時間的ネットワークを微調整し、低レベルな操作固有のアーティファクトに過度に適合することなく、口の動きに基づいて偽のビデオを検出する。
論文参考訳（メタデータ） (2020-12-14T15:53:56Z)
A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild [37.37319356008348]
ターゲット音声セグメントにマッチする任意のアイデンティティの話し顔ビデオのリップ同期。これに関連する重要な理由を同定し、強力なリップシンク識別器から学習することで解決する。制約のないビデオのリップ同期を正確に測定するための,厳密な評価ベンチマークとメトリクスを提案する。
論文参考訳（メタデータ） (2020-08-23T11:01:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。