論文の概要: VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL
- arxiv url: http://arxiv.org/abs/2510.02282v1
- Date: Thu, 02 Oct 2025 17:55:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.27551
- Title: VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL
- Title(参考訳): VidGuard-R1: MLLMとRLによるAI生成のビデオ検出と説明
- Authors: Kyoungjun Park, Yifan Yang, Juheon Yi, Shicheng Zheng, Yifei Shen, Dongqi Han, Caihua Shan, Muhammad Muaz, Lili Qiu,
- Abstract要約: VidGuard-R1は、マルチモーダルな大規模言語モデルを微調整する最初のビデオ認証検出器である。
私たちのモデルは、非常に正確な判断と洞察に富んだ推論の両方を提供します。
- 参考スコア(独自算出の注目度): 30.581247383974482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of AI-generated videos, there is an urgent need for effective detection tools to mitigate societal risks such as misinformation and reputational harm. In addition to accurate classification, it is essential that detection models provide interpretable explanations to ensure transparency for regulators and end users. To address these challenges, we introduce VidGuard-R1, the first video authenticity detector that fine-tunes a multi-modal large language model (MLLM) using group relative policy optimization (GRPO). Our model delivers both highly accurate judgments and insightful reasoning. We curate a challenging dataset of 140k real and AI-generated videos produced by state-of-the-art generation models, carefully designing the generation process to maximize discrimination difficulty. We then fine-tune Qwen-VL using GRPO with two specialized reward models that target temporal artifacts and generation complexity. Extensive experiments demonstrate that VidGuard-R1 achieves state-of-the-art zero-shot performance on existing benchmarks, with additional training pushing accuracy above 95%. Case studies further show that VidGuard-R1 produces precise and interpretable rationales behind its predictions. The code is publicly available at https://VidGuard-R1.github.io.
- Abstract(参考訳): AI生成ビデオの急速な進歩により、誤情報や評判の害といった社会的リスクを軽減する効果的な検出ツールが緊急に必要となる。
正確な分類に加えて、検出モデルが規制当局とエンドユーザの透明性を確保するために解釈可能な説明を提供することが不可欠である。
これらの課題に対処するために,グループ相対ポリシー最適化(GRPO)を用いてMLLM(Multi-modal large language model)を微調整する,最初のビデオ認証検出器であるVidGuard-R1を紹介する。
私たちのモデルは、非常に正確な判断と洞察に富んだ推論の両方を提供します。
我々は、最先端の世代モデルによって生成された140kのリアルおよびAI生成ビデオの挑戦的なデータセットをキュレートし、差別の難しさを最大化するために生成プロセスを慎重に設計する。
次に、時間的アーティファクトと生成複雑性をターゲットとした2つの特別報酬モデルを用いて、GRPOを用いてQwen-VLを微調整する。
大規模な実験により、VidGuard-R1は既存のベンチマークで最先端のゼロショットのパフォーマンスを達成し、95%以上の精度でトレーニングを行うことができた。
ケーススタディにより、VidGuard-R1はその予測の背後にある正確かつ解釈可能な理性を生み出すことが示されている。
コードはhttps://VidGuard-R1.github.ioで公開されている。
関連論文リスト
- Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。
本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。
提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-07-17T15:36:39Z) - BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation [77.55074597806035]
GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。
BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
論文 参考訳(メタデータ) (2025-05-19T02:06:43Z) - Video-R1: Reinforcing Video Reasoning in MLLMs [30.13366332687375]
Video-R1は、ビデオ推論にインセンティブを与えるためのR1パラダイムを体系的に探求する最初の試みである。
まず,T-GRPOアルゴリズムを提案する。
SFTコールドスタートのためのVideo-R1-CoT-165kと、RLトレーニングのためのVideo-R1-260kの2つのデータセットを構築した。
論文 参考訳(メタデータ) (2025-03-27T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。