論文の概要: Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning
- arxiv url: http://arxiv.org/abs/2512.15693v1
- Date: Wed, 17 Dec 2025 18:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.11155
- Title: Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning
- Title(参考訳): Skyra:グラウンドドアーティファクト推論によるAI生成ビデオ検出
- Authors: Yifei Li, Wenzhao Zheng, Yanran Zhang, Runze Sun, Yu Zheng, Lei Chen, Jie Zhou, Jiwen Lu,
- Abstract要約: AI生成ビデオにおける人間の知覚可能な視覚的アーティファクトを識別する,特殊な大規模言語モデル(MLLM)であるSkyraを紹介する。
この目的を達成するために、我々は、人間のアノテーションを微粒化した最初の大規模AI生成ビデオデータセットである、Supervised Fine-Tuning (SFT)のためのViF-CoT-4Kを構築した。
次に,モデルの時間的知覚,説明能力,検出精度を体系的に向上する2段階のトレーニング戦略を開発する。
- 参考スコア(独自算出の注目度): 66.51617619673587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The misuse of AI-driven video generation technologies has raised serious social concerns, highlighting the urgent need for reliable AI-generated video detectors. However, most existing methods are limited to binary classification and lack the necessary explanations for human interpretation. In this paper, we present Skyra, a specialized multimodal large language model (MLLM) that identifies human-perceivable visual artifacts in AI-generated videos and leverages them as grounded evidence for both detection and explanation. To support this objective, we construct ViF-CoT-4K for Supervised Fine-Tuning (SFT), which represents the first large-scale AI-generated video artifact dataset with fine-grained human annotations. We then develop a two-stage training strategy that systematically enhances our model's spatio-temporal artifact perception, explanation capability, and detection accuracy. To comprehensively evaluate Skyra, we introduce ViF-Bench, a benchmark comprising 3K high-quality samples generated by over ten state-of-the-art video generators. Extensive experiments demonstrate that Skyra surpasses existing methods across multiple benchmarks, while our evaluation yields valuable insights for advancing explainable AI-generated video detection.
- Abstract(参考訳): AI駆動のビデオ生成技術の誤用は深刻な社会的懸念を引き起こし、信頼できるAI生成ビデオ検出器の緊急の必要性を強調している。
しかし、既存の手法のほとんどは二項分類に限られており、人間の解釈に必要な説明が欠けている。
本稿では,AI生成ビデオにおける人間の知覚可能な視覚的アーティファクトを識別し,検出と説明の両方の根拠として活用する,特殊なマルチモーダル大規模言語モデル(MLLM)であるSkyraを提案する。
この目的を達成するために,我々は,人間のアノテーションを微粒化したAI生成ビデオアーティファクトデータセットとして,SFT (Supervised Fine-Tuning) のための ViF-CoT-4K を構築した。
次に,モデルの時空間的アーティファクト認識,説明能力,検出精度を体系的に向上する2段階のトレーニング戦略を開発する。
Skyraを包括的に評価するために,10以上の最先端ビデオジェネレータによって生成された3Kの高品質なサンプルからなるベンチマークであるViF-Benchを紹介する。
大規模な実験により、Skyraは複数のベンチマークで既存の手法を上回り、我々の評価は、説明可能なAI生成ビデオ検出を前進させる貴重な洞察を得る。
関連論文リスト
- Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs [92.02382309654263]
DeeptraceRewardは、人間が認識した偽のトレースをビデオ生成報酬に注釈付けするベンチマークである。
データセットは、高品質な3.3ビデオにまたがる4.3Kの詳細なアノテーションで構成されている。
これらのアノテーションを9つの主要なディープフェイクトレースカテゴリに集約し、人間が動画をAI生成であると識別する。
論文 参考訳(メタデータ) (2025-09-26T17:59:54Z) - Leveraging Pre-Trained Visual Models for AI-Generated Video Detection [54.88903878778194]
ビデオ生成の分野はDeepFakesを超えて進歩し、ジェネリックコンテンツでAI生成ビデオを検出する方法が緊急に必要になった。
本稿では,事前学習した視覚モデルを用いて,実写映像と実写映像を区別する手法を提案する。
提案手法は, 平均90%以上で高い検出精度を達成し, その有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-07-17T15:36:39Z) - DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。
DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。
以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文 参考訳(メタデータ) (2025-06-13T13:39:53Z) - GenWorld: Towards Detecting AI-generated Real-world Simulation Videos [79.98542193919957]
GenWorldは、AI生成ビデオ検出のための大規模で高品質で実世界のシミュレーションデータセットである。
実世界のAI生成ビデオ検出のための強力な基準として,マルチビュー一貫性を活用するモデルであるSpannDetectorを提案する。
論文 参考訳(メタデータ) (2025-06-12T17:59:33Z) - BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation [77.55074597806035]
GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。
BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
論文 参考訳(メタデータ) (2025-05-19T02:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。