論文の概要: EDVD-LLaMA: Explainable Deepfake Video Detection via Multimodal Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2510.16442v1
- Date: Sat, 18 Oct 2025 10:34:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.996726
- Title: EDVD-LLaMA: Explainable Deepfake Video Detection via Multimodal Large Language Model Reasoning
- Title(参考訳): EDVD-LLaMA:マルチモーダル大言語モデル推論による説明可能なディープフェイクビデオ検出
- Authors: Haoran Sun, Chen Cai, Huiping Zhuang, Kong Aik Lee, Lap-Pui Chau, Yi Wang,
- Abstract要約: ディープフェイクビデオ技術は 芸術的な創造を 促進しただけでなく 偽情報を広めやすくした
従来のディープフェイクビデオ検出手法は、その原則の透明性の欠如や、偽造技術に対処する能力の不足といった問題に直面している。
本稿では,Deepfake Video Detection (EDVD) タスクを提案し,EDVD-LLaMAマルチモーダル推論フレームワークを設計する。
- 参考スコア(独自算出の注目度): 58.42596067220998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of deepfake video technology has not only facilitated artistic creation but also made it easier to spread misinformation. Traditional deepfake video detection (DVD) methods face issues such as a lack of transparency in their principles and insufficient generalization capabilities to cope with evolving forgery techniques. This highlights an urgent need for detectors that can identify forged content and provide verifiable reasoning explanations. This paper proposes the explainable deepfake video detection (EDVD) task and designs the EDVD-LLaMA multimodal, a large language model (MLLM) reasoning framework, which provides traceable reasoning processes alongside accurate detection results and trustworthy explanations. Our approach first incorporates a Spatio-Temporal Subtle Information Tokenization (ST-SIT) to extract and fuse global and local cross-frame deepfake features, providing rich spatio-temporal semantic information input for MLLM reasoning. Second, we construct a Fine-grained Multimodal Chain-of-Thought (Fg-MCoT) mechanism, which introduces facial feature data as hard constraints during the reasoning process to achieve pixel-level spatio-temporal video localization, suppress hallucinated outputs, and enhance the reliability of the chain of thought. In addition, we build an Explainable Reasoning FF++ benchmark dataset (ER-FF++set), leveraging structured data to annotate videos and ensure quality control, thereby supporting dual supervision for reasoning and detection. Extensive experiments demonstrate that EDVD-LLaMA achieves outstanding performance and robustness in terms of detection accuracy, explainability, and its ability to handle cross-forgery methods and cross-dataset scenarios. Compared to previous DVD methods, it provides a more explainable and superior solution. The source code and dataset will be publicly available.
- Abstract(参考訳): ディープフェイクビデオ技術の急速な発展は、芸術的創造を促進するだけでなく、誤情報を拡散しやすくしている。
従来のディープフェイクビデオ検出(DVD)手法は、その原理の透明性の欠如や、進化する偽造技術に対処する一般化能力の不足といった問題に直面している。
これは、偽コンテンツを特定し、検証可能な推論説明を提供する検出器の緊急の必要性を強調している。
本稿では,大規模な言語モデル (MLLM) 推論フレームワークである EDVD-LLaMA multimodal を設計し,正確な検出結果と信頼性のある説明とともに,トレース可能な推論プロセスを提供する。
提案手法はまず,グローバルおよびローカルなクロスフレームな深層情報の特徴を抽出・融合するための時空間情報トークン化(ST-SIT)を導入し,MLLM推論のための時空間情報入力を多用する。
第2に,Fg-MCoT(Fg-MCoT)機構を構築することで,画素レベルの時空間ビデオのローカライゼーションを実現し,幻覚出力を抑え,思考の連鎖の信頼性を高める。
さらに,ビデオのアノテートや品質管理の確保に構造化されたデータを活用することで,推論と検出のための二重監視をサポートする,説明可能な推論型FF++ベンチマークデータセット(ER-FF++set)を構築した。
大規模な実験により、EDVD-LLaMAは、検出精度、説明可能性、およびクロスフォージェリーメソッドやクロスデータセットシナリオを扱う能力において、優れた性能と堅牢性を達成することが示された。
従来のDVDと比較して、より説明しやすい優れたソリューションを提供する。
ソースコードとデータセットが公開されている。
関連論文リスト
- DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。
DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。
以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文 参考訳(メタデータ) (2025-06-13T13:39:53Z) - Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [63.82450803014141]
長時間の映像理解は時間空間の複雑さによって大きな課題を呈する。
セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discoveryエージェントを提案する。
我々のDVDエージェントはSOTA性能を達成し,LVBenchデータセットの先行処理をはるかに上回っている。
論文 参考訳(メタデータ) (2025-05-23T16:37:36Z) - LAVID: An Agentic LVLM Framework for Diffusion-Generated Video Detection [14.687867348598035]
大規模視覚言語モデル(LVLM)は、AI生成コンテンツ検出の新しいツールとなっている。
本稿では,LVLMを用いた新たなai生成ビデオ検出システムであるLAVIDを提案する。
提案するパイプラインは,検出のための明示的な知識ツールのセットを自動的に選択し,自己書換えによって構造を適応的に調整する。
論文 参考訳(メタデータ) (2025-02-20T19:34:58Z) - CapST: Leveraging Capsule Networks and Temporal Attention for Accurate Model Attribution in Deep-fake Videos [9.209808258321559]
特定の生成モデルやエンコーダにディープフェイクを加えることは、法医学的な分析に不可欠であり、ソースと調整された対策を可能にする。
本研究では、異なるモデル(DFDM)からのディープフェイクとGANGen-Detectionの2つのデータセットを用いたディープフェイクビデオのモデル属性問題について検討する。
本稿では,Truncated VGG19ネットワークを統合した新しいCapsule-Spatial-Cap(CapST)モデルを提案する。
論文 参考訳(メタデータ) (2023-11-07T08:05:09Z) - Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文 参考訳(メタデータ) (2023-09-13T10:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。