論文の概要: VideoVeritas: AI-Generated Video Detection via Perception Pretext Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.08828v1
- Date: Mon, 09 Feb 2026 16:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.343654
- Title: VideoVeritas: AI-Generated Video Detection via Perception Pretext Reinforcement Learning
- Title(参考訳): VideoVeritas: 知覚プレテクスト強化学習によるAI生成ビデオ検出
- Authors: Hao Tan, Jun Lan, Senyuan Shi, Zichang Tan, Zijian Yu, Huijia Zhu, Weiqiang Wang, Jun Wan, Zhen Lei,
- Abstract要約: VideoVeritasは、きめ細かい認識と事実に基づく推論のためのフレームワークだ。
共同知覚選好と知覚Pretext Reinforcement Learningが使用される。
- 参考スコア(独自算出の注目度): 42.22791607763693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing capability of video generation poses escalating security risks, making reliable detection increasingly essential. In this paper, we introduce VideoVeritas, a framework that integrates fine-grained perception and fact-based reasoning. We observe that while current multi-modal large language models (MLLMs) exhibit strong reasoning capacity, their granular perception ability remains limited. To mitigate this, we introduce Joint Preference Alignment and Perception Pretext Reinforcement Learning (PPRL). Specifically, rather than directly optimizing for detection task, we adopt general spatiotemporal grounding and self-supervised object counting in the RL stage, enhancing detection performance with simple perception pretext tasks. To facilitate robust evaluation, we further introduce MintVid, a light yet high-quality dataset containing 3K videos from 9 state-of-the-art generators, along with a real-world collected subset that has factual errors in content. Experimental results demonstrate that existing methods tend to bias towards either superficial reasoning or mechanical analysis, while VideoVeritas achieves more balanced performance across diverse benchmarks.
- Abstract(参考訳): ビデオ生成能力の増大は、セキュリティリスクをエスカレートし、信頼性の高い検出がますます不可欠になる。
本稿では,細粒度認識とファクトベース推論を統合したフレームワークであるVideoVeritasを紹介する。
現在のマルチモーダル大言語モデル(MLLM)は推論能力が強いが、その粒度の認識能力は限られている。
これを軽減するために,PPRL(Joint Preference Alignment and Perception Pretext Reinforcement Learning)を導入する。
具体的には、検出タスクを直接最適化するのではなく、RL段階における一般的な時空間グラウンドと自己監督対象カウントを採用し、単純な知覚前提タスクによる検出性能を向上する。
堅牢な評価を容易にするために,9つの最先端ジェネレータからの3Kビデオを含む軽量で高品質なデータセットであるMintVidと,コンテンツに事実的エラーがある実世界のコレクションサブセットについても紹介する。
実験の結果,既存の手法は表面的推論や機械的解析に偏りが強く,ビデオVeritasは様々なベンチマークでよりバランスの取れた性能を実現していることがわかった。
関連論文リスト
- Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - LAVID: An Agentic LVLM Framework for Diffusion-Generated Video Detection [14.687867348598035]
大規模視覚言語モデル(LVLM)は、AI生成コンテンツ検出の新しいツールとなっている。
本稿では,LVLMを用いた新たなai生成ビデオ検出システムであるLAVIDを提案する。
提案するパイプラインは,検出のための明示的な知識ツールのセットを自動的に選択し,自己書換えによって構造を適応的に調整する。
論文 参考訳(メタデータ) (2025-02-20T19:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。