Fugu-MT 論文翻訳(概要): DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization

論文の概要: DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization

arxiv url: http://arxiv.org/abs/2411.10193v2
Date: Fri, 11 Apr 2025 06:56:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-14 15:34:41.450274
Title: DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization
Title（参考訳）: DiMoDif: 音声・視覚深度検出と局所化のための談話モダリティ-情報差分法
Authors: Christos Koutlis, Symeon Papadopoulos,
Abstract要約: DiMoDifはオーディオ・ビジュアル・ディープフェイク検出フレームワークである。音声の機械知覚におけるモダリティ間差異を利用する。時間的にディープフェイクの偽造を特定できる。
参考スコア（独自算出の注目度）: 13.840950434728533
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Deepfake technology has rapidly advanced and poses significant threats to information integrity and trust in online multimedia. While significant progress has been made in detecting deepfakes, the simultaneous manipulation of audio and visual modalities, sometimes at small parts or in subtle ways, presents highly challenging detection scenarios. To address these challenges, we present DiMoDif, an audio-visual deepfake detection framework that leverages the inter-modality differences in machine perception of speech, based on the assumption that in real samples -- in contrast to deepfakes -- visual and audio signals coincide in terms of information. DiMoDif leverages features from deep networks that specialize in visual and audio speech recognition to spot frame-level cross-modal incongruities, and in that way to temporally localize the deepfake forgery. To this end, we devise a hierarchical cross-modal fusion network, integrating adaptive temporal alignment modules and a learned discrepancy mapping layer to explicitly model the subtle differences between visual and audio representations. Then, the detection model is optimized through a composite loss function accounting for frame-level detections and fake intervals localization. DiMoDif outperforms the state-of-the-art on the Deepfake Detection task by 30.5 AUC on the highly challenging AV-Deepfake1M, while it performs exceptionally on FakeAVCeleb and LAV-DF. On the Temporal Forgery Localization task, it outperforms the state-of-the-art by 47.88 AP@0.75 on AV-Deepfake1M, and performs on-par on LAV-DF. Code available at https://github.com/mever-team/dimodif.
Abstract（参考訳）: ディープフェイク技術は急速に進歩し、オンラインマルチメディアにおける情報完全性と信頼に重大な脅威をもたらしている。ディープフェイクの検出には大きな進歩があったが、オーディオと視覚の同時操作は、小さな部分や微妙な方法でも、非常に困難な検出シナリオを呈している。これらの課題に対処するために、私たちは、ディープフェイクとは対照的に実際のサンプルにおいて視覚信号と音声信号が情報量で一致しているという仮定に基づいて、音声の機械知覚におけるモード間差異を利用する、音声-視覚的ディープフェイク検出フレームワークであるDiMoDifを提案する。 DiMoDifは、ビジュアルとオーディオの音声認識を専門とするディープネットワークの機能を活用して、フレームレベルのクロスモーダルな矛盾を見つけ、そのようにしてディープフェイクの偽造を時間的にローカライズする。この目的のために,適応的時間的アライメントモジュールと学習的不一致マッピング層を統合し,視覚的表現と音声表現の微妙な差異を明示的にモデル化する階層型クロスモーダル融合ネットワークを考案した。そして、フレームレベルの検出と偽区間のローカライゼーションを考慮した複合損失関数により、検出モデルを最適化する。 DiMoDifは、高度に挑戦するAV-Deepfake1Mで30.5 AUCでDeepfake Detectionタスクの最先端を上回り、FakeAVCelebとLAV-DFでは例外的に性能が向上した。テンポラルフォージェリーローカライゼーションタスクでは、AV-Deepfake1Mで47.88 AP@0.75の最先端を上回り、LAV-DFでオンパーを実行する。コードはhttps://github.com/mever-team/dimodif.comで公開されている。

関連論文リスト

Multi-modal Deepfake Detection and Localization with FPN-Transformer [21.022230340898556]
FPN変換器(Feature Pyramid-Transformer)に基づくマルチモーダルディープフェイク検出およびローカライゼーションフレームワークを提案する。マルチスケールな特徴ピラミッドは、R-TLMブロックと局所的な注意機構によって構築され、コンテキスト間の時間的依存関係の結合解析を可能にする。我々は,IJCAI'25 DDL-AVベンチマークの試験セットに対するアプローチを評価し,最終スコア0.7535で良好な性能を示した。
論文参考訳（メタデータ） (2025-11-11T09:33:39Z)
ERF-BA-TFD+: A Multimodal Model for Audio-Visual Deepfake Detection [49.14187862877009]
本稿では,ERFと音声-視覚融合を組み合わせた新しいディープフェイク検出モデルであるERF-BA-TFD+を提案する。我々のモデルは音声と映像の両方の特徴を同時に処理し、その相補的な情報を活用して検出精度とロバスト性を向上させる。本研究では,DDL-AVデータセット上でのRF-BA-TFD+の評価を行った。
論文参考訳（メタデータ） (2025-08-24T10:03:46Z)
KLASSify to Verify: Audio-Visual Deepfake Detection Using SSL-based Audio and Handcrafted Visual Features [1.488627850405606]
AV-Deepfake1M 2025チャレンジに対するマルチモーダルアプローチを提案する。視覚的モダリティには手作りの機能を活用して解釈性と適応性を向上させる。音声のモダリティには、グラフアテンションネットワークと組み合わせた自己教師付き学習バックボーンを適用し、リッチな音声表現をキャプチャする。当社のアプローチでは、レジリエンスと潜在的な解釈可能性に重点を置いて、パフォーマンスと実世界のデプロイメントのバランスを取ります。
論文参考訳（メタデータ） (2025-08-10T13:29:08Z)
Frame-level Temporal Difference Learning for Partial Deepfake Speech Detection [16.923285534924116]
不自然な時間変動を識別する部分的な深度検出を再定義する時間差注意モジュール(TDAM)を提案する。二重レベルの階層的差分表現は、微細なスケールと粗いスケールの両方で時間的不規則性を捕捉する一方、適応的な平均プーリングは、情報損失を最小限に抑えるために、可変長入力における必須パターンを保存する。当社のTDAM-AvgPoolモデルは,PartialSpoofデータセットで0.59%,HADデータセットで0.03%,最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-07-20T19:46:23Z)
Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies [11.671275975119089]
空間領域と時間領域の両方において微妙なアーティファクトを検出するためのきめ細かいメカニズムを提案する。まず,音声との不整合が生じやすい小さな空間領域を撮影できる局所視覚モデルを提案する。第2に、トレーニングセットに微妙な時間的不整合を取り入れたサンプルを含む、時間的に局所的な擬似フェイク増強を導入する。
論文参考訳（メタデータ） (2024-08-13T09:19:59Z)
Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-02T18:45:01Z)
Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。 FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。 PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文参考訳（メタデータ） (2024-07-23T15:07:52Z)
MIS-AVoiDD: Modality Invariant and Specific Representation for Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文参考訳（メタデータ） (2023-10-03T17:43:24Z)
CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文参考訳（メタデータ） (2023-09-30T12:30:25Z)
DF-TransFusion: Multimodal Deepfake Detection via Lip-Audio Cross-Attention and Facial Self-Attention [13.671150394943684]
本稿では,ディープフェイク検出タスクのための音声とビデオの同時処理を目的とした,新しいマルチモーダルオーディオ・ビデオ・フレームワークを提案する。本モデルでは,細調整VGG-16ネットワークを介して視覚的手がかりを抽出しながら,入力音声による唇の同期に重きを置いている。
論文参考訳（メタデータ） (2023-09-12T18:37:05Z)
An Efficient Temporary Deepfake Location Approach Based Embeddings for Partially Spoofed Audio Detection [4.055489363682199]
本稿では,時間的ディープフェイク位置(TDL)という,きめ細かな部分スプーフ音声検出手法を提案する。提案手法は, 類似モジュールの埋め込みと時間的畳み込み操作という2つの新しい部分を含む。提案手法は, ASVspoof 2019 partial Spoof データセットのベースラインモデルより優れ, クロスデータセットシナリオにおいても優れた性能を示す。
論文参考訳（メタデータ） (2023-09-06T14:29:29Z)
NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。 NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文参考訳（メタデータ） (2023-06-12T06:06:05Z)
Glitch in the Matrix: A Large Scale Benchmark for Content Driven Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。 LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文参考訳（メタデータ） (2023-05-03T08:48:45Z)
Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文参考訳（メタデータ） (2022-09-12T15:05:41Z)
Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset and Multimodal Method for Temporal Forgery Localization [19.490174583625862]
LAV-DF(Localized Audio Visual DeepFake)と呼ばれるコンテンツ駆動型オーディオビジュアルディープフェイクデータセットを導入する。具体的には、映像全体の感情極性を変えるために、コンテンツ駆動型音声視覚操作を戦略的に行う。提案手法の時間的フォージェリーローカライゼーションとディープフェイク検出タスクに対する強い性能を示す。
論文参考訳（メタデータ） (2022-04-13T08:02:11Z)
M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文参考訳（メタデータ） (2021-04-20T05:43:44Z)
Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文参考訳（メタデータ） (2020-03-14T22:07:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。