論文の概要: A-Bench: Are LMMs Masters at Evaluating AI-generated Images?
- arxiv url: http://arxiv.org/abs/2406.03070v1
- Date: Wed, 5 Jun 2024 08:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 19:09:43.027166
- Title: A-Bench: Are LMMs Masters at Evaluating AI-generated Images?
- Title(参考訳): A-Bench: LMMはAI生成画像を評価できるのか?
- Authors: Zicheng Zhang, Haoning Wu, Chunyi Li, Yingjie Zhou, Wei Sun, Xiongkuo Min, Zijian Chen, Xiaohong Liu, Weisi Lin, Guangtao Zhai,
- Abstract要約: A-Benchは、マルチモーダルモデル(LMM)がAI生成画像(AIGI)を評価するマスターであるかどうかを診断するために設計されたベンチマークである。
最終的に、16のテキスト・ツー・イメージモデルの2,864のAIGIがサンプリングされ、それぞれが人間の専門家によって注釈付けされた質問回答と組み合わせられ、18のLMMでテストされる。
- 参考スコア(独自算出の注目度): 78.3699767628502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How to accurately and efficiently assess AI-generated images (AIGIs) remains a critical challenge for generative models. Given the high costs and extensive time commitments required for user studies, many researchers have turned towards employing large multi-modal models (LMMs) as AIGI evaluators, the precision and validity of which are still questionable. Furthermore, traditional benchmarks often utilize mostly natural-captured content rather than AIGIs to test the abilities of LMMs, leading to a noticeable gap for AIGIs. Therefore, we introduce A-Bench in this paper, a benchmark designed to diagnose whether LMMs are masters at evaluating AIGIs. Specifically, A-Bench is organized under two key principles: 1) Emphasizing both high-level semantic understanding and low-level visual quality perception to address the intricate demands of AIGIs. 2) Various generative models are utilized for AIGI creation, and various LMMs are employed for evaluation, which ensures a comprehensive validation scope. Ultimately, 2,864 AIGIs from 16 text-to-image models are sampled, each paired with question-answers annotated by human experts, and tested across 18 leading LMMs. We hope that A-Bench will significantly enhance the evaluation process and promote the generation quality for AIGIs. The benchmark is available at https://github.com/Q-Future/A-Bench.
- Abstract(参考訳): AI生成画像(AIGI)を正確にかつ効率的に評価する方法は、生成モデルにとって重要な課題である。
ユーザスタディに必要な高コストと広範な時間的コミットメントを考えると、多くの研究者はAIGI評価器として大規模なマルチモーダルモデル(LMM)を採用する傾向にあるが、その精度と妥当性はまだ疑問視されている。
さらに、従来のベンチマークでは、LMMの能力をテストするためにAIGIではなく、主に自然に捕獲されたコンテンツを使用することが多いため、AIGIには顕著なギャップが生じる。
そこで本稿では,LMMがAIGI評価の達人であるか否かを診断するためのベンチマークであるA-Benchを紹介する。
具体的には、A-Benchは2つの重要な原則に基づいて構成されている。
1)AIGIの複雑な要求に対処するために,高レベルの意味理解と低レベルの視覚的品質認識の両方を強調する。
2) 様々な生成モデルをAIGI生成に利用し, 様々なLMMを用いて評価を行い, 総合的な検証範囲を確保する。
最終的に、16のテキスト・ツー・イメージ・モデルの2,864のAIGIがサンプル化され、それぞれが人間の専門家によって注釈付けされた質問回答と組み合わせられ、18のLMMでテストされる。
A-Benchは評価プロセスを大幅に強化し,AIGIの生成品質を向上することを期待している。
ベンチマークはhttps://github.com/Q-Future/A-Bench.comで公開されている。
関連論文リスト
- MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - G-Refine: A General Quality Refiner for Text-to-Image Generation [74.16137826891827]
G-Refineは,高画質画像の整合性を損なうことなく,低画質画像の高精細化を図った汎用画像精細機である。
このモデルは、知覚品質指標、アライメント品質指標、一般的な品質向上モジュールの3つの相互接続モジュールで構成されている。
大規模な実験により、G-Refine以降のAIGIは、4つのデータベースで10以上の品質指標でパフォーマンスが向上していることが明らかになった。
論文 参考訳(メタデータ) (2024-04-29T00:54:38Z) - AIGIQA-20K: A Large Database for AI-Generated Image Quality Assessment [54.93996119324928]
AIGIQA-20Kとして知られる2万のAIGIと420,000の主観評価を備えた、これまでで最大のAIGI主観的品質データベースを作成します。
このデータベース上でベンチマーク実験を行い、16の主流AIGI品質モデルと人間の知覚との対応性を評価する。
論文 参考訳(メタデータ) (2024-04-04T12:12:24Z) - VisualCritic: Making LMMs Perceive Visual Quality Like Humans [65.59779450136399]
広視野画像の主観的品質評価のための最初のLMMであるVisualCriticを提案する。
VisualCriticは、データセット固有の適応操作を必要とせずに、最初からさまざまなデータにまたがって使用することができる。
論文 参考訳(メタデータ) (2024-03-19T15:07:08Z) - 2AFC Prompting of Large Multimodal Models for Image Quality Assessment [38.86162365208038]
2-alternative forced choice (2AFC) は視覚的品質に関する人間の意見を集める最も信頼性の高い方法であると考えられている。
特定のLMMで推定される各画像のグローバルな品質スコアを、最大後部推定を用いて効率的に集計することができる。
論文 参考訳(メタデータ) (2024-02-02T06:05:18Z) - IM-IAD: Industrial Image Anomaly Detection Benchmark in Manufacturing [88.35145788575348]
画像異常検出(英: Image Anomaly Detection、IAD)は、産業用コンピュータビジョンの課題である。
統一IMベンチマークの欠如は、現実世界のアプリケーションにおけるIADメソッドの開発と利用を妨げる。
7つの主要なデータセットに19のアルゴリズムを含む包括的画像異常検出ベンチマーク(IM-IAD)を構築した。
論文 参考訳(メタデータ) (2023-01-31T01:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。