論文の概要: DeepAgent: A Dual Stream Multi Agent Fusion for Robust Multimodal Deepfake Detection
- arxiv url: http://arxiv.org/abs/2512.07351v1
- Date: Mon, 08 Dec 2025 09:43:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.81385
- Title: DeepAgent: A Dual Stream Multi Agent Fusion for Robust Multimodal Deepfake Detection
- Title(参考訳): DeepAgent:ロバストなマルチモーダルディープフェイク検出のためのデュアルストリームマルチエージェントフュージョン
- Authors: Sayeem Been Zaman, Wasimul Karim, Arefin Ittesafun Abian, Reem E. Mohamed, Md Rafiqul Islam, Asif Karim, Sami Azam,
- Abstract要約: DeepAgentは、ディープフェイクを効果的に検出するために、視覚とオーディオの両方を同時に組み込むフレームワークである。
Agent-1はAlexNetベースのCNNで各ビデオを調べ、ディープフェイク操作のシンボルを識別する。
Agent-2は、音響的特徴、Whisperからの音声書き起こし、EasyOCRによる画像のフレーム読み取りシーケンスを組み合わせることで、オーディオ-視覚的不整合を検出する。
- 参考スコア(独自算出の注目度): 1.7024685699333262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing use of synthetic media, particularly deepfakes, is an emerging challenge for digital content verification. Although recent studies use both audio and visual information, most integrate these cues within a single model, which remains vulnerable to modality mismatches, noise, and manipulation. To address this gap, we propose DeepAgent, an advanced multi-agent collaboration framework that simultaneously incorporates both visual and audio modalities for the effective detection of deepfakes. DeepAgent consists of two complementary agents. Agent-1 examines each video with a streamlined AlexNet-based CNN to identify the symbols of deepfake manipulation, while Agent-2 detects audio-visual inconsistencies by combining acoustic features, audio transcriptions from Whisper, and frame-reading sequences of images through EasyOCR. Their decisions are fused through a Random Forest meta-classifier that improves final performance by taking advantage of the different decision boundaries learned by each agent. This study evaluates the proposed framework using three benchmark datasets to demonstrate both component-level and fused performance. Agent-1 achieves a test accuracy of 94.35% on the combined Celeb-DF and FakeAVCeleb datasets. On the FakeAVCeleb dataset, Agent-2 and the final meta-classifier attain accuracies of 93.69% and 81.56%, respectively. In addition, cross-dataset validation on DeepFakeTIMIT confirms the robustness of the meta-classifier, which achieves a final accuracy of 97.49%, and indicates a strong capability across diverse datasets. These findings confirm that hierarchy-based fusion enhances robustness by mitigating the weaknesses of individual modalities and demonstrate the effectiveness of a multi-agent approach in addressing diverse types of manipulations in deepfakes.
- Abstract(参考訳): 合成メディア、特にディープフェイクの利用の増加は、デジタルコンテンツ検証の新たな課題である。
近年の研究では、音声情報と視覚情報の両方を使用しているが、ほとんどの場合、モダリティのミスマッチ、ノイズ、操作に弱い単一モデルにこれらのキューを統合する。
このギャップに対処するために,DeepAgentを提案する。DeepAgentは,視覚とオーディオの両モードを同時に組み込んで,ディープフェイクを効果的に検出する,高度なマルチエージェント協調フレームワークである。
DeepAgentは2つの補完エージェントから構成される。
Agent-1は、各ビデオを、AlexNetベースのCNNで合理化してディープフェイク操作のシンボルを識別する一方、Agent-2は、音響的特徴、Whisperからの音声書き起こし、EasyOCRによる画像のフレーム読取シーケンスを組み合わせることで、オーディオ-視覚的不整合を検出する。
彼らの決定はランダムフォレストメタ分類器によって融合され、各エージェントが学習した異なる決定境界を活用することで最終的なパフォーマンスを改善する。
本研究は,3つのベンチマークデータセットを用いて,コンポーネントレベルと融合性能の両方を実証するフレームワークの評価を行う。
Agent-1は、Celeb-DFとFakeAVCelebのデータセットを組み合わせたテスト精度94.35%を達成する。
FakeAVCelebデータセットでは、エージェント-2と最終メタ分類器はそれぞれ93.69%と81.56%の精度を達成した。
さらに、DeepFakeTIMITのクロスデータセット検証では、メタ分類器の堅牢性を確認しており、最終的な精度は97.49%であり、多様なデータセットにまたがる強力な能力を示している。
これらの結果から,階層型核融合は個々のモダリティの弱点を緩和することにより堅牢性を高めることが確認され,ディープフェイクの多種多様な操作に対処するためのマルチエージェントアプローチの有効性が示された。
関連論文リスト
- Fine-Grained DINO Tuning with Dual Supervision for Face Forgery Detection [18.62471724010391]
DINOv2のためのDeepFake Fine-Grained Adapter (DFF-Adapter)を提案する。
本手法では,軽量なマルチヘッドLORAモジュールをトランスブロックに組み込む。
提案手法は,現在の複雑な最先端手法に匹敵する,あるいは超越した精度で検出を行う。
論文 参考訳(メタデータ) (2025-11-15T08:57:21Z) - ERF-BA-TFD+: A Multimodal Model for Audio-Visual Deepfake Detection [49.14187862877009]
本稿では,ERFと音声-視覚融合を組み合わせた新しいディープフェイク検出モデルであるERF-BA-TFD+を提案する。
我々のモデルは音声と映像の両方の特徴を同時に処理し、その相補的な情報を活用して検出精度とロバスト性を向上させる。
本研究では,DDL-AVデータセット上でのRF-BA-TFD+の評価を行った。
論文 参考訳(メタデータ) (2025-08-24T10:03:46Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。
視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。
私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-01-10T00:20:29Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - Straight Through Gumbel Softmax Estimator based Bimodal Neural Architecture Search for Audio-Visual Deepfake Detection [6.367999777464464]
マルチモーダルディープフェイク検出器は 従来の融合法に依存している 多数決ルールや アンサンブル投票など
本稿では,マルチモーダル融合モデルアーキテクチャを検索するための包括的アプローチを提供する,Straight-through Gumbel-Softmaxフレームワークを提案する。
FakeAVCelebとSWAN-DFデータセットの実験では、最小のモデルパラメータでAUCの94.4%が達成された。
論文 参考訳(メタデータ) (2024-06-19T09:26:22Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。