論文の概要: Explainable AI-Generated Image Detection RewardBench
- arxiv url: http://arxiv.org/abs/2511.12363v1
- Date: Sat, 15 Nov 2025 21:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.990284
- Title: Explainable AI-Generated Image Detection RewardBench
- Title(参考訳): 説明可能なAI生成画像検出RewardBench
- Authors: Michael Yang, Shijian Deng, William T. Doan, Kai Wang, Tianyu Yang, Harsh Singh, Yapeng Tian,
- Abstract要約: 本稿では,画像が本物かAI生成かという説明の質を判断する,現在のMLLMの能力を評価するために設計された最初のベンチマークを示す。
その結果,今日のMLLMの推論能力と人間レベルのパフォーマンスとの間には,目に見えるギャップが残っていることがわかった。
- 参考スコア(独自算出の注目度): 31.232580254401924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional, classification-based AI-generated image detection methods cannot explain why an image is considered real or AI-generated in a way a human expert would, which reduces the trustworthiness and persuasiveness of these detection tools for real-world applications. Leveraging Multimodal Large Language Models (MLLMs) has recently become a trending solution to this issue. Further, to evaluate the quality of generated explanations, a common approach is to adopt an "MLLM as a judge" methodology to evaluate explanations generated by other MLLMs. However, how well those MLLMs perform when judging explanations for AI-generated image detection generated by themselves or other MLLMs has not been well studied. We therefore propose \textbf{XAIGID-RewardBench}, the first benchmark designed to evaluate the ability of current MLLMs to judge the quality of explanations about whether an image is real or AI-generated. The benchmark consists of approximately 3,000 annotated triplets sourced from various image generation models and MLLMs as policy models (detectors) to assess the capabilities of current MLLMs as reward models (judges). Our results show that the current best reward model scored 88.76\% on this benchmark (while human inter-annotator agreement reaches 98.30\%), demonstrating that a visible gap remains between the reasoning abilities of today's MLLMs and human-level performance. In addition, we provide an analysis of common pitfalls that these models frequently encounter. Code and benchmark are available at https://github.com/RewardBench/XAIGID-RewardBench.
- Abstract(参考訳): 従来の、分類に基づくAI生成画像検出手法では、画像が現実的またはAI生成であると判断される理由を、人間の専門家が考える方法で説明できないため、これらの検出ツールの信頼性と説得力を現実のアプリケーションに還元することができる。
MLLM(Multimodal Large Language Models)の活用は、この問題のトレンドとなっている。
さらに、生成した説明の質を評価するために、他のMLLMが生成した説明を評価するために、"MLLM as a judge"手法を採用するのが一般的である。
しかし、これらのMLLMは、自身または他のMLLMによって生成されたAI生成画像の検出に関する説明を判断する上で、いかにうまく機能するかは、十分に研究されていない。
そこで,本稿では,画像が本物かAI生成かという説明の質を判断する,現在のMLLMの能力を評価するための最初のベンチマークである‘textbf{XAIGID-RewardBench} を提案する。
このベンチマークは、様々な画像生成モデルとMLLMから得られた約3,000個の注釈付き三重項で構成され、政策モデル(検出器)として現在のMLLMの能力を報酬モデル(ジャッジ)として評価する。
その結果,現在のベスト報酬モデルでは,このベンチマークで88.76 %(人間間アノテータ契約は98.30 %)を獲得し,今日のMLLMの推論能力と人間レベルのパフォーマンスとの間には,目に見えるギャップが残っていることが示された。
さらに、これらのモデルが頻繁に遭遇する共通の落とし穴について分析する。
コードとベンチマークはhttps://github.com/RewardBench/XAIGID-RewardBenchで公開されている。
関連論文リスト
- ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - DiffuSyn Bench: Evaluating Vision-Language Models on Real-World Complexities with Diffusion-Generated Synthetic Benchmarks [0.0]
本研究では,AI生成画像と人間生成画像とを区別するLVLM(Large Vision-Language Models)の能力を評価する。
この評価のための新しい自動ベンチマーク構築手法を導入する。
論文 参考訳(メタデータ) (2024-06-06T19:50:33Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - The Instinctive Bias: Spurious Images lead to Illusion in MLLMs [34.91795817316696]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
本稿では,スプリアス画像の視覚錯視レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。