論文の概要: DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning
- arxiv url: http://arxiv.org/abs/2506.14827v1
- Date: Fri, 13 Jun 2025 13:39:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.406485
- Title: DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning
- Title(参考訳): DAVID-XR1:説明可能な推論によるAI生成ビデオの検出
- Authors: Yifeng Gao, Yifan Ding, Hongyu Su, Juncheng Li, Yunhan Zhao, Lin Luo, Zixing Chen, Li Wang, Xin Wang, Yixu Wang, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。
DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。
以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
- 参考スコア(独自算出の注目度): 58.70446237944036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As AI-generated video becomes increasingly pervasive across media platforms, the ability to reliably distinguish synthetic content from authentic footage has become both urgent and essential. Existing approaches have primarily treated this challenge as a binary classification task, offering limited insight into where or why a model identifies a video as AI-generated. However, the core challenge extends beyond simply detecting subtle artifacts; it requires providing fine-grained, persuasive evidence that can convince auditors and end-users alike. To address this critical gap, we introduce DAVID-X, the first dataset to pair AI-generated videos with detailed defect-level, temporal-spatial annotations and written rationales. Leveraging these rich annotations, we present DAVID-XR1, a video-language model designed to deliver an interpretable chain of visual reasoning-including defect categorization, temporal-spatial localization, and natural language explanations. This approach fundamentally transforms AI-generated video detection from an opaque black-box decision into a transparent and verifiable diagnostic process. We demonstrate that a general-purpose backbone, fine-tuned on our compact dataset and enhanced with chain-of-thought distillation, achieves strong generalization across a variety of generators and generation modes. Our results highlight the promise of explainable detection methods for trustworthy identification of AI-generated video content.
- Abstract(参考訳): AIが生み出すビデオがメディアプラットフォーム全体に広まるにつれ、合成コンテンツと本物の映像を確実に区別する能力は、緊急かつ必要不可欠なものになってきています。
既存のアプローチでは、主にこの課題をバイナリ分類タスクとして扱い、モデルが動画をAI生成と認識する場所と理由に関する限られた洞察を提供する。
しかし、中核的な課題は、単に微妙なアーティファクトを検知するだけでなく、オーディエンスやエンドユーザを納得させるような、きめ細かい説得力のある証拠を提供する必要がある。
この重要なギャップに対処するために、我々はAI生成したビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットであるDAVID-Xを紹介する。
DAVID-XR1は、視覚的推論を含む、欠陥分類、時間空間的局所化、自然言語の説明の解釈可能な連鎖を提供するために設計された、ビデオ言語モデルである。
このアプローチは、AI生成のビデオ検出を不透明なブラックボックス決定から透明で検証可能な診断プロセスに根本的に変換する。
汎用バックボーンは, コンパクトなデータセットに微調整され, チェーン・オブ・シント蒸留により強化され, 様々な発電機や生成モードにまたがる強力な一般化を実現することを実証する。
以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
関連論文リスト
- BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation [47.46972260985436]
GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。
BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
論文 参考訳(メタデータ) (2025-05-19T02:06:43Z) - Chameleon: On the Scene Diversity and Domain Variety of AI-Generated Videos Detection [4.66355848422886]
AI生成ビデオ検出のための既存のデータセットは、多様性、複雑性、リアリズムの限界を示す。
我々は、複数の生成ツールと様々な実ビデオソースを通してビデオを生成する。
同時に、シーンスイッチやダイナミックな視点変化など、ビデオの現実的な複雑さを保ちます。
論文 参考訳(メタデータ) (2025-03-09T13:58:43Z) - Generative Ghost: Investigating Ranking Bias Hidden in AI-Generated Videos [106.5804660736763]
ビデオ情報検索は、ビデオコンテンツにアクセスするための基本的なアプローチである。
我々は,検索モデルがアドホックや画像検索タスクにおいて,AI生成コンテンツに好適であることを示す。
我々は、ビデオ検索に挑戦する文脈において、同様のバイアスが出現するかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-11T07:43:47Z) - GenVidBench: A Challenging Benchmark for Detecting AI-Generated Video [35.05198100139731]
GenVidBenchは、AIが生成するビデオ検出データセットで、いくつかの重要な利点がある。
データセットには8つの最先端AIビデオジェネレータのビデオが含まれている。
複数の次元から分析され、その内容に基づいて様々な意味カテゴリーに分類される。
論文 参考訳(メタデータ) (2025-01-20T08:58:56Z) - A Sanity Check for AI-generated Image Detection [49.08585395873425]
我々はAI生成画像を検出するAI生成画像検出装置(AI生成画像検出装置)を提案する。
AIDEは最先端の手法を+3.5%、+4.6%改善した。
論文 参考訳(メタデータ) (2024-06-27T17:59:49Z) - AI-Generated Video Detection via Spatio-Temporal Anomaly Learning [2.1210527985139227]
ユーザは、偽情報を拡散するために、既存のないビデオを簡単に作成できる。
モデルトレーニングと評価のためのベンチマークとして,大規模ビデオデータセット(GVD)を構築した。
論文 参考訳(メタデータ) (2024-03-25T11:26:18Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。