論文の概要: BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation
- arxiv url: http://arxiv.org/abs/2505.12620v1
- Date: Mon, 19 May 2025 02:06:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.349107
- Title: BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation
- Title(参考訳): BusterX:MLLMによるAI生成ビデオの偽造検出と説明
- Authors: Haiquan Wen, Yiwei He, Zhenglin Huang, Tianxiao Li, Zihan YU, Xingru Huang, Lu Qi, Baoyuan Wu, Xiangtai Li, Guangliang Cheng,
- Abstract要約: GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。
BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
- 参考スコア(独自算出の注目度): 47.46972260985436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in AI generative models facilitate super-realistic video synthesis, amplifying misinformation risks via social media and eroding trust in digital content. Several research works have explored new deepfake detection methods on AI-generated images to alleviate these risks. However, with the fast development of video generation models, such as Sora and WanX, there is currently a lack of large-scale, high-quality AI-generated video datasets for forgery detection. In addition, existing detection approaches predominantly treat the task as binary classification, lacking explainability in model decision-making and failing to provide actionable insights or guidance for the public. To address these challenges, we propose \textbf{GenBuster-200K}, a large-scale AI-generated video dataset featuring 200K high-resolution video clips, diverse latest generative techniques, and real-world scenes. We further introduce \textbf{BusterX}, a novel AI-generated video detection and explanation framework leveraging multimodal large language model (MLLM) and reinforcement learning for authenticity determination and explainable rationale. To our knowledge, GenBuster-200K is the {\it \textbf{first}} large-scale, high-quality AI-generated video dataset that incorporates the latest generative techniques for real-world scenarios. BusterX is the {\it \textbf{first}} framework to integrate MLLM with reinforcement learning for explainable AI-generated video detection. Extensive comparisons with state-of-the-art methods and ablation studies validate the effectiveness and generalizability of BusterX. The code, models, and datasets will be released.
- Abstract(参考訳): AI生成モデルの進歩は、超現実的なビデオ合成を促進し、ソーシャルメディアを介して誤情報リスクを増幅し、デジタルコンテンツの信頼を侵食する。
いくつかの研究は、これらのリスクを軽減するために、AI生成画像の新たなディープフェイク検出方法を模索している。
しかし、SoraやWanXのようなビデオ生成モデルの急速な発展に伴い、現在、偽検出のための大規模で高品質なAI生成ビデオデータセットが不足している。
さらに、既存の検出手法は、タスクを二分分類として扱うこと、モデル決定の説明可能性の欠如、一般向けに実行可能な洞察やガイダンスの提供を怠っている。
これらの課題に対処するために、200Kの高解像度ビデオクリップ、多様な最新の生成技術、実世界のシーンを含む大規模なAI生成ビデオデータセットである \textbf{GenBuster-200K} を提案する。
さらに,マルチモーダル大言語モデル(MLLM)と強化学習を利用したAI生成型ビデオ検出・説明フレームワークである‘textbf{BusterX} も紹介する。
我々の知る限り、GenBuster-200Kは、現実世界のシナリオに最新の生成テクニックを組み込んだ、大規模で高品質なAI生成ビデオデータセットである。
BusterXはMLLMと強化学習を統合し、説明可能なAI生成ビデオ検出を実現するためのフレームワークである。
最先端手法とアブレーション研究との大規模な比較により,BusterXの有効性と一般化性が検証された。
コード、モデル、データセットがリリースされる。
関連論文リスト
- Generative Ghost: Investigating Ranking Bias Hidden in AI-Generated Videos [106.5804660736763]
ビデオ情報検索は、ビデオコンテンツにアクセスするための基本的なアプローチである。
我々は,検索モデルがアドホックや画像検索タスクにおいて,AI生成コンテンツに好適であることを示す。
我々は、ビデオ検索に挑戦する文脈において、同様のバイアスが出現するかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-11T07:43:47Z) - GenVidBench: A Challenging Benchmark for Detecting AI-Generated Video [35.05198100139731]
GenVidBenchは、AIが生成するビデオ検出データセットで、いくつかの重要な利点がある。
データセットには8つの最先端AIビデオジェネレータのビデオが含まれている。
複数の次元から分析され、その内容に基づいて様々な意味カテゴリーに分類される。
論文 参考訳(メタデータ) (2025-01-20T08:58:56Z) - Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark [38.604684882464944]
我々は,AIが生成した最初のビデオ検出データセットであるGenVideoを紹介する。
大量のビデオがあり、その中にはAIが生成し、実際のビデオが100万本以上含まれている。
我々はデテール・マンバ(Detail Mamba)というプラグイン・アンド・プレイ・モジュールを導入し、AI生成ビデオを特定して検出器を強化する。
論文 参考訳(メタデータ) (2024-05-30T05:36:12Z) - Detecting AI-Generated Video via Frame Consistency [25.290019967304616]
生成したビデオのオープンソースデータセットと検出手法を初めて提案する。
まず,964のプロンプトからなるスケーラブルなデータセットを提案する。
第二に、空間的アーティファクトに基づく検出器が一般化性に欠けていることの探索実験により明らかになった。
論文 参考訳(メタデータ) (2024-02-03T08:52:06Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。