論文の概要: PIA: Deepfake Detection Using Phoneme-Temporal and Identity-Dynamic Analysis
- arxiv url: http://arxiv.org/abs/2510.14241v1
- Date: Thu, 16 Oct 2025 02:51:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.684592
- Title: PIA: Deepfake Detection Using Phoneme-Temporal and Identity-Dynamic Analysis
- Title(参考訳): PIA:音素時間・アイデンティティ・ダイナミック分析を用いたディープフェイク検出
- Authors: Soumyya Kanti Datta, Tanvi Ranga, Chengzhe Sun, Siwei Lyu,
- Abstract要約: Phoneme-Temporal and Identity-Dynamic Analysisはディープフェイク検出のための新しいフレームワークである。
言語、動的顔の動き、および制限に対処するための顔認証手段が組み込まれている。
微妙な深度変化の検出を大幅に改善する。
- 参考スコア(独自算出の注目度): 22.49571926071395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of manipulated media has made deepfakes a particularly insidious threat, involving various generative manipulations such as lip-sync modifications, face-swaps, and avatar-driven facial synthesis. Conventional detection methods, which predominantly depend on manually designed phoneme-viseme alignment thresholds, fundamental frame-level consistency checks, or a unimodal detection strategy, inadequately identify modern-day deepfakes generated by advanced generative models such as GANs, diffusion models, and neural rendering techniques. These advanced techniques generate nearly perfect individual frames yet inadvertently create minor temporal discrepancies frequently overlooked by traditional detectors. We present a novel multimodal audio-visual framework, Phoneme-Temporal and Identity-Dynamic Analysis(PIA), incorporating language, dynamic face motion, and facial identification cues to address these limitations. We utilize phoneme sequences, lip geometry data, and advanced facial identity embeddings. This integrated method significantly improves the detection of subtle deepfake alterations by identifying inconsistencies across multiple complementary modalities. Code is available at https://github.com/skrantidatta/PIA
- Abstract(参考訳): 操作されたメディアの台頭により、ディープフェイクは特に悲惨な脅威となり、リップシンク修正、フェイススワップ、アバター駆動の顔合成など、様々な生成的操作が行われた。
従来の検出方法は、手動で設計した音素視線アライメントしきい値、基本フレームレベルの整合性チェック、あるいは単調検出戦略に依存しており、GAN、拡散モデル、ニューラルレンダリング技術といった先進的な生成モデルによって生成される現代のディープフェイクを不適切に識別する。
これらの高度な技術は、ほぼ完璧な個々のフレームを生成するが、必然的に、従来の検出器がしばしば見落としている小さな時間差を生じさせる。
本稿では, 言語, 動的顔の動き, 顔の識別手段を取り入れた新しいマルチモーダル・オーディオ・ビジュアル・フレームワークであるPhoneme-Temporal and Identity-Dynamic Analysis(PIA)を提案する。
我々は、音素配列、唇形状データ、高度な顔認証の埋め込みを利用する。
この統合手法は、複数の相補的なモード間での不整合を識別することにより、微妙な深度変化の検出を大幅に改善する。
コードはhttps://github.com/skrantidatta/PIAで公開されている。
関連論文リスト
- UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - The Tug-of-War Between Deepfake Generation and Detection [4.62070292702111]
マルチモーダル生成モデルは急速に進化しており、現実的なビデオやオーディオの生成が急増している。
ディープフェイクビデオは、個人を説得力を持って偽造することができるが、悪用の可能性から特に注目を集めている。
本研究では,ディープフェイク映像の生成と検出の両面を考察し,効果的な対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-07-08T17:49:41Z) - DeepFidelity: Perceptual Forgery Fidelity Assessment for Deepfake
Detection [67.3143177137102]
ディープフェイク検出(Deepfake detection)とは、画像やビデオにおいて、人工的に生成された顔や編集された顔を検出すること。
本稿では,実顔と偽顔とを適応的に識別するDeepFidelityという新しいDeepfake検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-07T07:19:45Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential
Deepfake Detection [81.59191603867586]
シークエンシャルディープフェイク検出は、回復のための正しいシーケンスで偽の顔領域を特定することを目的としている。
偽画像の復元には、逆変換を実装するための操作モデルの知識が必要である。
顔画像の空間スケールや逐次順列化を扱うマルチコラボレーション・マルチスーパービジョンネットワーク(MMNet)を提案する。
論文 参考訳(メタデータ) (2023-07-06T02:32:08Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。