論文の概要: From Prediction to Explanation: Multimodal, Explainable, and Interactive Deepfake Detection Framework for Non-Expert Users
- arxiv url: http://arxiv.org/abs/2508.07596v1
- Date: Mon, 11 Aug 2025 03:55:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.93556
- Title: From Prediction to Explanation: Multimodal, Explainable, and Interactive Deepfake Detection Framework for Non-Expert Users
- Title(参考訳): 予測から説明へ:非エキスパートユーザのためのマルチモーダル、説明可能、インタラクティブなディープフェイク検出フレームワーク
- Authors: Shahroz Tariq, Simon S. Woo, Priyanka Singh, Irena Irmalasari, Saakshi Gupta, Dev Gupta,
- Abstract要約: DF-P2E(Deepfake: Prediction to Explanation)は、視覚的、意味的、物語的な説明層を統合して、ディープフェイク検出を解釈し、アクセス可能にする新しいフレームワークである。
現在最も多様なディープフェイクデータセットであるDF40ベンチマークで、フレームワークをインスタンス化し、評価しています。
実験により,Grad-CAMアクティベーションに適合した高品質な説明を提供しながら,競合検出性能を実証した。
- 参考スコア(独自算出の注目度): 21.627851460651968
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The proliferation of deepfake technologies poses urgent challenges and serious risks to digital integrity, particularly within critical sectors such as forensics, journalism, and the legal system. While existing detection systems have made significant progress in classification accuracy, they typically function as black-box models, offering limited transparency and minimal support for human reasoning. This lack of interpretability hinders their usability in real-world decision-making contexts, especially for non-expert users. In this paper, we present DF-P2E (Deepfake: Prediction to Explanation), a novel multimodal framework that integrates visual, semantic, and narrative layers of explanation to make deepfake detection interpretable and accessible. The framework consists of three modular components: (1) a deepfake classifier with Grad-CAM-based saliency visualisation, (2) a visual captioning module that generates natural language summaries of manipulated regions, and (3) a narrative refinement module that uses a fine-tuned Large Language Model (LLM) to produce context-aware, user-sensitive explanations. We instantiate and evaluate the framework on the DF40 benchmark, the most diverse deepfake dataset to date. Experiments demonstrate that our system achieves competitive detection performance while providing high-quality explanations aligned with Grad-CAM activations. By unifying prediction and explanation in a coherent, human-aligned pipeline, this work offers a scalable approach to interpretable deepfake detection, advancing the broader vision of trustworthy and transparent AI systems in adversarial media environments.
- Abstract(参考訳): ディープフェイク技術の普及は、特に鑑識、ジャーナリズム、法体系といった重要な分野において、急激な課題と深刻なリスクをもたらす。
既存の検出システムは分類精度を大幅に向上させたが、通常はブラックボックスモデルとして機能し、透明性と人間の推論に対する最小サポートを提供する。
この解釈可能性の欠如は、現実世界の意思決定コンテキストにおけるユーザビリティを妨げている。
本稿では,DF-P2E(Deepfake: Prediction to Explanation)について述べる。
本フレームワークは,(1)Grad-CAMをベースとしたサリエンシビジュアライゼーションを備えたディープフェイク分類器,(2)操作領域の自然言語要約を生成するビジュアルキャプションモジュール,(3)微調整されたLarge Language Model(LLM)を用いてコンテキスト認識でユーザ感的な説明を生成するナラティブリファインメントモジュールの3つのモジュールから構成される。
現在最も多様なディープフェイクデータセットであるDF40ベンチマークで、フレームワークをインスタンス化し、評価しています。
実験により,Grad-CAMアクティベーションに適合した高品質な説明を提供しながら,競合検出性能を実証した。
一貫性のあるヒューマンアライメントパイプラインでの予測と説明を統一することにより、この研究は、ディープフェイクの検出を解釈するためのスケーラブルなアプローチを提供し、敵のメディア環境における信頼できる透明なAIシステムの幅広いビジョンを前進させる。
関連論文リスト
- Domain Knowledge-Enhanced LLMs for Fraud and Concept Drift Detection [11.917779863156097]
概念ドリフト(CD)、すなわち意味的あるいは話題的なシフトは、時間とともに相互作用の文脈や意図を変える。
これらのシフトは、悪意のある意図を曖昧にしたり、通常の対話を模倣したりし、正確な分類を困難にします。
本稿では,事前学習された大規模言語モデルと構造化されたタスク固有の洞察を統合して,詐欺や概念ドリフトの検出を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-26T16:29:45Z) - Learning Knowledge-based Prompts for Robust 3D Mask Presentation Attack Detection [84.21257150497254]
本稿では,3次元マスク提示攻撃検出のための視覚言語モデルの強力な一般化能力を検討するための,知識に基づく新しいプロンプト学習フレームワークを提案する。
実験により,提案手法は最先端のシナリオ内およびクロスシナリオ検出性能を実現することを示す。
論文 参考訳(メタデータ) (2025-05-06T15:09:23Z) - FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。
FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。
FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-31T16:12:48Z) - Unlocking the Capabilities of Large Vision-Language Models for Generalizable and Explainable Deepfake Detection [18.125287697902813]
現在のLVLM(Large Vision-Language Models)は、マルチモーダルデータの理解において顕著な能力を示している。
深度検出のためのLVLMの潜在能力を解き放つ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:20:03Z) - Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - Dynamic Analysis and Adaptive Discriminator for Fake News Detection [59.41431561403343]
偽ニュース検出のための動的解析・適応識別器(DAAD)手法を提案する。
知識に基づく手法では,モンテカルロ木探索アルゴリズムを導入し,大規模言語モデルの自己表現能力を活用する。
意味に基づく手法では、偽ニュース生成のメカニズムを明らかにするために、典型的偽造パターンを4つ定義する。
論文 参考訳(メタデータ) (2024-08-20T14:13:54Z) - Conditioned Prompt-Optimization for Continual Deepfake Detection [11.634681724245933]
本稿では,Pmpt2Guardについて紹介する。
我々は,読み出し専用プロンプトを用いた予測アンサンブル手法を活用し,複数のフォワードパスの必要性を軽減した。
提案手法は,ディープフェイク検出に適したテキスト・プロンプト・コンディショニングを利用する。
論文 参考訳(メタデータ) (2024-07-31T12:22:57Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。