Fugu-MT 論文翻訳(概要): Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos

論文の概要: Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos

arxiv url: http://arxiv.org/abs/2605.18984v1
Date: Mon, 18 May 2026 18:04:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-20 15:03:08.907369
Title: Artifact-Bench: Evaluating MLLMs on Detecting and Assessing the Artifacts of AI-Generated Videos
Title（参考訳）: Artifact-Bench:AI生成ビデオのアーチファクトの検出と評価のためのMLLMの評価
Authors: Yuqi Tang, Yang Shi, Zhuoran Zhang, Qixun Wang, Xuehai Bai, Yue Ding, Ruizhe Chen, Bohan Zeng, Xinlong Chen, Xuanyu Zhu, Bozhou Li, Yuran Wang, Yifan Dai, Chengzhuo Tong, Xinyu Liu, Yiyan Ji, Yujie Wei, Yuhao Dong, Shilin Yan, Fengxiang Wang, Yi-Fan Zhang, Haotian Wang, Yuanxing Zhang, Pengfei Wan,
Abstract要約: Artifact-Benchは、AI生成ビデオアーティファクトの検出と分析におけるMLLMの評価のための包括的なベンチマークである。まず,本研究では,フォトリアリスティック,アニメーション,CGスタイルの映像を網羅した,リアリズムアーティファクトの3階層的階層分類を構築した。 Artifact-Bench氏はこの分類に基づいて、3つの補完的なタスクを定義している。
参考スコア（独自算出の注目度）: 39.53238043542789
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent video generative models have greatly improved the realism of AI-generated videos, yet their outputs still exhibit artifacts such as temporal inconsistencies, structural distortions, and semantic incoherence. While Multimodal Large Language Models (MLLMs) show strong visual understanding capabilities, their ability to perceive and reason about such artifacts remains unclear. Existing benchmarks often lack systematic evaluation of artifact-aware perception and fine-grained diagnostic reasoning, especially across diverse AI-generated video domains beyond photorealistic content. To address this gap, we introduce Artifact-Bench, a comprehensive benchmark for evaluating MLLMs on AI-generated video artifact detection and analysis. We first establish a three-level hierarchical taxonomy of realism artifacts, covering photorealistic, animated, and CG-style videos. Based on this taxonomy, Artifact-Bench defines three complementary tasks: real vs. AI-generated video classification, pairwise realism comparison, and fine-grained artifact identification. Experiments on 19 leading MLLMs reveal substantial limitations in artifact perception and reasoning, with many models approaching random or even below-random performance in challenging settings. We further observe significant misalignment between MLLM judgments and human perceptual preferences, highlighting their limited reliability as general evaluators for AI-generated video realism.
Abstract（参考訳）: 最近のビデオ生成モデルは、AI生成ビデオのリアリズムを大幅に改善しているが、その出力には、時間的不整合、構造的歪み、意味的不整合などのアーティファクトが残っている。 MLLM(Multimodal Large Language Models)は、強力な視覚的理解能力を示すが、これらのアーチファクトを知覚し、推論する能力はいまだに不明である。既存のベンチマークでは、アーティファクト認識ときめ細かい診断推論の体系的な評価が欠如していることが多い。このギャップに対処するために、AI生成ビデオアーティファクトの検出と解析においてMLLMを評価するための包括的なベンチマークであるArtifact-Benchを紹介する。まず,本研究では,フォトリアリスティック,アニメーション,CGスタイルの映像を網羅した,リアリズムアーティファクトの3階層的階層分類を構築した。 Artifact-Bench氏はこの分類に基づいて、3つの補完的なタスクを定義している。 19個のMLLMの実験では、アーティファクトの知覚と推論にかなりの制限が示され、多くのモデルが挑戦的な設定においてランダムまたはランダム以下のパフォーマンスに近づいている。さらに、MLLM判断と人間の知覚的嗜好の重大な相違を観察し、AI生成ビデオリアリズムの一般的な評価者としての信頼性の限界を強調した。

関連論文リスト

GenVideoLens: Where LVLMs Fall Short in AI-Generated Video Detection? [41.69796567933368]
GenVideoLensは、AI生成ビデオ検出におけるLVLM機能の次元的評価を可能にする、きめ細かいベンチマークである。このベンチマークには、高度に偽造されたAI生成ビデオ400と、15の認証範囲の専門家によって注釈付けされた100のリアルビデオが含まれている。 LVLMは知覚的手がかりにおいて比較的よく機能するが、光学的一貫性、物理的相互作用、時間的因果推論に苦しむ。
論文参考訳（メタデータ） (2026-03-19T08:44:08Z)
Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning [66.51617619673587]
AI生成ビデオにおける人間の知覚可能な視覚的アーティファクトを識別する,特殊な大規模言語モデル(MLLM)であるSkyraを紹介する。この目的を達成するために、我々は、人間のアノテーションを微粒化した最初の大規模AI生成ビデオデータセットである、Supervised Fine-Tuning (SFT)のためのViF-CoT-4Kを構築した。次に,モデルの時間的知覚,説明能力,検出精度を体系的に向上する2段階のトレーニング戦略を開発する。
論文参考訳（メタデータ） (2025-12-17T18:48:26Z)
Mirage: Unveiling Hidden Artifacts in Synthetic Images with Large Vision-Language Models [5.0378934905319355]
説明可能なAI画像検出にLVLM(Large Vision-Language Models)を利用することができるかを検討する。 Mirageと既存のベンチマークデータセットを用いた実験により、LVLMは目に見えるアーティファクトでAI生成画像を検出するのに非常に効果的であるが、そのような手がかりを欠いた画像に直面すると性能が低下することが示された。
論文参考訳（メタデータ） (2025-10-04T15:38:39Z)
BrokenVideos: A Benchmark Dataset for Fine-Grained Artifact Localization in AI-Generated Videos [63.03271511550633]
BrokenVideosは、3,254のAI生成ビデオのベンチマークデータセットで、微妙に注釈付けされたピクセルレベルのマスクが視覚的腐敗の領域を強調している。実験の結果,BrokenVideosにおける人工物検出モデルの訓練状況とマルチモーダル大言語モデル(MLLM)が,破壊領域のローカライズ能力を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2025-06-25T03:30:04Z)
Interpretable and Reliable Detection of AI-Generated Images via Grounded Reasoning in MLLMs [43.08776932101172]
私たちは、バウンディングボックスと記述キャプションを付加したAI生成画像のデータセットを構築します。次に、多段階最適化戦略によりMLLMを微調整する。得られたモデルは、AI生成画像の検出と視覚的欠陥のローカライズの両方において、優れた性能を達成する。
論文参考訳（メタデータ） (2025-06-08T08:47:44Z)
BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation [77.55074597806035]
GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。 BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
論文参考訳（メタデータ） (2025-05-19T02:06:43Z)
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文参考訳（メタデータ） (2024-06-14T17:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。