Fugu-MT 論文翻訳(概要): NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake Detection

論文の概要: NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake Detection

arxiv url: http://arxiv.org/abs/2306.06885v1
Date: Mon, 12 Jun 2023 06:06:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-13 15:59:16.246470
Title: NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake Detection
Title（参考訳）: NPVForensics:ディープフェイク検出のための非臨界音素とビセムの結合
Authors: Yu Chen, Yang Yu, Rongrong Ni, Yao Zhao, Haoliang Li
Abstract要約: 既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。 NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
参考スコア（独自算出の注目度）: 50.33525966541906
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deepfake technologies empowered by deep learning are rapidly evolving, creating new security concerns for society. Existing multimodal detection methods usually capture audio-visual inconsistencies to expose Deepfake videos. More seriously, the advanced Deepfake technology realizes the audio-visual calibration of the critical phoneme-viseme regions, achieving a more realistic tampering effect, which brings new challenges. To address this problem, we propose a novel Deepfake detection method to mine the correlation between Non-critical Phonemes and Visemes, termed NPVForensics. Firstly, we propose the Local Feature Aggregation block with Swin Transformer (LFA-ST) to construct non-critical phoneme-viseme and corresponding facial feature streams effectively. Secondly, we design a loss function for the fine-grained motion of the talking face to measure the evolutionary consistency of non-critical phoneme-viseme. Next, we design a phoneme-viseme awareness module for cross-modal feature fusion and representation alignment, so that the modality gap can be reduced and the intrinsic complementarity of the two modalities can be better explored. Finally, a self-supervised pre-training strategy is leveraged to thoroughly learn the audio-visual correspondences in natural videos. In this manner, our model can be easily adapted to the downstream Deepfake datasets with fine-tuning. Extensive experiments on existing benchmarks demonstrate that the proposed approach outperforms state-of-the-art methods.
Abstract（参考訳）: ディープラーニングによって強化されたディープフェイク技術は急速に進化し、社会の新しいセキュリティ上の懸念を生み出している。既存のマルチモーダル検出法は、通常、視聴覚不整合を捉えてディープフェイクビデオを露出させる。より真面目に言うと、Deepfakeの技術は、重要な音素視線領域の音声・視覚的校正を実現し、より現実的な改ざん効果を実現し、新たな課題をもたらす。この問題に対処するために,NPVForensics と呼ばれる非クリティカルなPhonemes と Visemes の相関関係を抽出する新しいDeepfake検出手法を提案する。まず,Swin Transformer (LFA-ST) を用いた局所特徴集約ブロックを提案する。第二に、非臨界音素ビセムの進化的一貫性を測定するために、話面のきめ細かい動きに対する損失関数を設計する。次に,モーダリティギャップを小さくし,2つのモーダリティの本質的な相補性をよりよく探求できるように,モーダリティ融合と表現アライメントのための音素-視覚認識モジュールを設計する。最後に、自己指導型事前学習戦略を利用して、自然映像の音声・視覚対応を徹底的に学習する。このように、我々のモデルは微調整で下流のDeepfakeデータセットに容易に適応できる。既存のベンチマークに関する広範な実験は、提案手法が最先端の手法よりも優れていることを示している。

関連論文リスト

Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文参考訳（メタデータ） (2025-06-10T06:40:43Z)
DeepFake Doctor: Diagnosing and Treating Audio-Video Fake Detection [21.703619021132333]
最近のDeepFake検出アプローチは、マルチモーダル(オーディオビデオ)脅威シナリオを探索している。既存のデータセットには重大な問題がある。我々は、Simple Multimodal BAseline (SIMBA)を導入し、将来的な緩和戦略を示す。
論文参考訳（メタデータ） (2025-06-06T08:10:54Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
Anomaly Detection and Localization for Speech Deepfakes via Feature Pyramid Matching [8.466707742593078]
音声ディープフェイク(英: Speech Deepfakes)は、ターゲット話者の声を模倣できる合成音声信号である。音声のディープフェイクを検出する既存の方法は教師あり学習に依存している。本稿では,音声深度検出を異常検出タスクとして再設定する,新しい解釈可能な一クラス検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-23T11:15:22Z)
DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
DiMoDifはオーディオ・ビジュアル・ディープフェイク検出フレームワークである。音声の機械知覚におけるモダリティ間差異を利用する。時間的にディープフェイクの偽造を特定できる。
論文参考訳（メタデータ） (2024-11-15T13:47:33Z)
Understanding Audiovisual Deepfake Detection: Techniques, Challenges, Human Factors and Perceptual Insights [49.81915942821647]
ディープラーニングは様々な分野に適用され、ディープフェイク検出への影響は例外ではない。ディープフェイク(英: Deepfakes)は、政治的偽造、フィッシング、スランダリング、偽情報の拡散に偽装的に使用できる、偽物だが現実的な合成コンテンツである。本稿では,ディープフェイク検出戦略の有効性を改善し,サイバーセキュリティとメディアの整合性に関する今後の研究を導くことを目的とする。
論文参考訳（メタデータ） (2024-11-12T09:02:11Z)
Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-02T18:45:01Z)
Conditioned Prompt-Optimization for Continual Deepfake Detection [11.634681724245933]
本稿では,Pmpt2Guardについて紹介する。我々は,読み出し専用プロンプトを用いた予測アンサンブル手法を活用し,複数のフォワードパスの必要性を軽減した。提案手法は,ディープフェイク検出に適したテキスト・プロンプト・コンディショニングを利用する。
論文参考訳（メタデータ） (2024-07-31T12:22:57Z)
The Tug-of-War Between Deepfake Generation and Detection [4.62070292702111]
マルチモーダル生成モデルは急速に進化しており、現実的なビデオやオーディオの生成が急増している。ディープフェイクビデオは、個人を説得力を持って偽造することができるが、悪用の可能性から特に注目を集めている。本研究では,ディープフェイク映像の生成と検出の両面を考察し,効果的な対策の必要性を強調した。
論文参考訳（メタデータ） (2024-07-08T17:49:41Z)
Adversarially Robust Deepfake Detection via Adversarial Feature Similarity Learning [0.0]
ディープフェイク技術は、デジタルコンテンツの信頼性を懸念し、効果的な検出方法の開発を必要としている。敵は、検出モデルを騙して誤った出力を生成する、小さくて知覚できない摂動でディープフェイクビデオを操作できる。本稿では,3つの基本的深い特徴学習パラダイムを統合したAFSL(Adversarial Feature similarity Learning)を紹介する。
論文参考訳（メタデータ） (2024-02-06T11:35:05Z)
AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。 AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T19:01:26Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文参考訳（メタデータ） (2022-09-12T15:05:41Z)
Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文参考訳（メタデータ） (2022-03-02T17:44:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。