Fugu-MT 論文翻訳(概要): VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

論文の概要: VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL

arxiv url: http://arxiv.org/abs/2510.02282v1
Date: Thu, 02 Oct 2025 17:55:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-03 16:59:21.27551
Title: VidGuard-R1: AI-Generated Video Detection and Explanation via Reasoning MLLMs and RL
Title（参考訳）: VidGuard-R1: MLLMとRLによるAI生成のビデオ検出と説明
Authors: Kyoungjun Park, Yifan Yang, Juheon Yi, Shicheng Zheng, Yifei Shen, Dongqi Han, Caihua Shan, Muhammad Muaz, Lili Qiu,
Abstract要約: VidGuard-R1は、マルチモーダルな大規模言語モデルを微調整する最初のビデオ認証検出器である。私たちのモデルは、非常に正確な判断と洞察に富んだ推論の両方を提供します。
参考スコア（独自算出の注目度）: 30.581247383974482
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rapid advancement of AI-generated videos, there is an urgent need for effective detection tools to mitigate societal risks such as misinformation and reputational harm. In addition to accurate classification, it is essential that detection models provide interpretable explanations to ensure transparency for regulators and end users. To address these challenges, we introduce VidGuard-R1, the first video authenticity detector that fine-tunes a multi-modal large language model (MLLM) using group relative policy optimization (GRPO). Our model delivers both highly accurate judgments and insightful reasoning. We curate a challenging dataset of 140k real and AI-generated videos produced by state-of-the-art generation models, carefully designing the generation process to maximize discrimination difficulty. We then fine-tune Qwen-VL using GRPO with two specialized reward models that target temporal artifacts and generation complexity. Extensive experiments demonstrate that VidGuard-R1 achieves state-of-the-art zero-shot performance on existing benchmarks, with additional training pushing accuracy above 95%. Case studies further show that VidGuard-R1 produces precise and interpretable rationales behind its predictions. The code is publicly available at https://VidGuard-R1.github.io.
Abstract（参考訳）: AI生成ビデオの急速な進歩により、誤情報や評判の害といった社会的リスクを軽減する効果的な検出ツールが緊急に必要となる。正確な分類に加えて、検出モデルが規制当局とエンドユーザの透明性を確保するために解釈可能な説明を提供することが不可欠である。これらの課題に対処するために,グループ相対ポリシー最適化(GRPO)を用いてMLLM(Multi-modal large language model)を微調整する,最初のビデオ認証検出器であるVidGuard-R1を紹介する。私たちのモデルは、非常に正確な判断と洞察に富んだ推論の両方を提供します。我々は、最先端の世代モデルによって生成された140kのリアルおよびAI生成ビデオの挑戦的なデータセットをキュレートし、差別の難しさを最大化するために生成プロセスを慎重に設計する。次に、時間的アーティファクトと生成複雑性をターゲットとした2つの特別報酬モデルを用いて、GRPOを用いてQwen-VLを微調整する。大規模な実験により、VidGuard-R1は既存のベンチマークで最先端のゼロショットのパフォーマンスを達成し、95%以上の精度でトレーニングを行うことができた。ケーススタディにより、VidGuard-R1はその予測の背後にある正確かつ解釈可能な理性を生み出すことが示されている。コードはhttps://VidGuard-R1.github.ioで公開されている。

関連論文リスト

LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding [106.23494088118571]
LongVideo-R1は、効率的なビデオコンテキストナビゲーションのためのマルチモーダル大言語モデル(MLLM)エージェントである。これは、その後の処理において最も情報に富むビデオクリップを推測する。 LongVideo-R1エージェントは、2段階のパラダイムを通じてQwen-3-8Bモデルに微調整される。
論文参考訳（メタデータ） (2026-02-24T13:49:47Z)
VideoVeritas: AI-Generated Video Detection via Perception Pretext Reinforcement Learning [42.22791607763693]
VideoVeritasは、きめ細かい認識と事実に基づく推論のためのフレームワークだ。共同知覚選好と知覚Pretext Reinforcement Learningが使用される。
論文参考訳（メタデータ） (2026-02-09T16:00:01Z)
SAGA: Source Attribution of Generative AI Videos [23.217701516122048]
我々は、AI生成ビデオソース属性の必要性を大規模に解決する最初の包括的なフレームワークであるSAGA(Source Attribution of Generative AI video)を紹介する。信頼性、生成タスク(T2V/I2Vなど)、モデルバージョン、開発チーム、正確なジェネレータの5つのレベルにまたがって、よりリッチな法医学的な洞察を提供する。
論文参考訳（メタデータ） (2025-11-16T23:39:54Z)
VideoTG-R1: Boosting Video Temporal Grounding via Curriculum Reinforcement Learning on Reflected Boundary Annotations [59.40631942092535]
ビデオ時間グラウンド(VTG)は、言語クエリに基づいて、ビデオ内の正確なセグメントを特定することを目的としている。最近のMLLM(Multimodal Large Language Models)は、強化学習(RL)を通してVTGに取り組むことを約束している。本稿では,境界アノテーションを反映した新しいカリキュラムRLフレームワークであるVideoTG-R1を提案する。
論文参考訳（メタデータ） (2025-10-27T14:55:38Z)
Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文参考訳（メタデータ） (2025-07-17T15:36:39Z)
DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。 DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文参考訳（メタデータ） (2025-06-13T13:39:53Z)
BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation [77.55074597806035]
GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。 BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
論文参考訳（メタデータ） (2025-05-19T02:06:43Z)
Video-R1: Reinforcing Video Reasoning in MLLMs [30.13366332687375]
Video-R1は、ビデオ推論にインセンティブを与えるためのR1パラダイムを体系的に探求する最初の試みである。まず,T-GRPOアルゴリズムを提案する。 SFTコールドスタートのためのVideo-R1-CoT-165kと、RLトレーニングのためのVideo-R1-260kの2つのデータセットを構築した。
論文参考訳（メタデータ） (2025-03-27T17:59:51Z)
AI-Generated Video Detection via Spatio-Temporal Anomaly Learning [2.1210527985139227]
ユーザは、偽情報を拡散するために、既存のないビデオを簡単に作成できる。モデルトレーニングと評価のためのベンチマークとして,大規模ビデオデータセット(GVD)を構築した。
論文参考訳（メタデータ） (2024-03-25T11:26:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。