論文の概要: Q-REAL: Towards Realism and Plausibility Evaluation for AI-Generated Content
- arxiv url: http://arxiv.org/abs/2511.16908v1
- Date: Fri, 21 Nov 2025 02:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.866435
- Title: Q-REAL: Towards Realism and Plausibility Evaluation for AI-Generated Content
- Title(参考訳): Q-REAL:AI生成コンテンツの現実性と可塑性評価に向けて
- Authors: Shushi Wang, Zicheng Zhang, Chunyi Li, Wei Wang, Liya Ma, Fengjiao Chen, Xiaoyu Li, Xuezhi Cao, Guangtao Zhai, Xiaohong Liu,
- Abstract要約: 本稿では,AI生成画像におけるリアリズムと妥当性の詳細な評価のための新しいデータセットであるQ-Realを紹介する。
Q-Realは、人気のあるテキスト・ツー・イメージ・モデルによって生成される3,088のイメージで構成されている。
そこで本研究では,Q-Real Benchを2つの課題,すなわち判断と推論による根拠付けに基づいて評価する。
- 参考スコア(独自算出の注目度): 71.46991494014382
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Quality assessment of AI-generated content is crucial for evaluating model capability and guiding model optimization. However, most existing quality assessment datasets and models provide only a single quality score, which is too coarse to offer targeted guidance for improving generative models. In current applications of AI-generated images, realism and plausibility are two critical dimensions, and with the emergence of unified generation-understanding models, fine-grained evaluation along these dimensions becomes especially effective for improving generative performance. Therefore, we introduce Q-Real, a novel dataset for fine-grained evaluation of realism and plausibility in AI-generated images. Q-Real consists of 3,088 images generated by popular text-to-image models. For each image, we annotate the locations of major entities and provide a set of judgment questions and attribution descriptions for these along the dimensions of realism and plausibility. Considering that recent advances in multi-modal large language models (MLLMs) enable fine-grained evaluation of AI-generated images, we construct Q-Real Bench to evaluate them on two tasks: judgment and grounding with reasoning. Finally, to enhance MLLM capabilities, we design a fine-tuning framework and conduct experiments on multiple MLLMs using our dataset. Experimental results demonstrate the high quality and significance of our dataset and the comprehensiveness of the benchmark. Dataset and code will be released upon publication.
- Abstract(参考訳): AI生成コンテンツの品質評価は、モデル能力の評価とモデル最適化の導出に不可欠である。
しかし、既存の品質評価データセットやモデルのほとんどは、単一の品質スコアしか提供していないため、生成モデルを改善するためのターゲットガイダンスを提供するには大きすぎる。
AI生成画像の現在の応用においては、リアリズムと可視性は2つの重要な次元であり、統一された生成モデルが出現すると、これらの次元に沿ったきめ細かい評価が生成性能の向上に特に有効になる。
そこで我々は,AI生成画像におけるリアリズムと妥当性の詳細な評価のための新しいデータセットであるQ-Realを紹介した。
Q-Realは、人気のあるテキスト・ツー・イメージ・モデルによって生成される3,088のイメージで構成されている。
各画像に対して、主要なエンティティの位置を注釈し、現実主義と可視性の次元に沿って、判断の質問とこれらに対する属性記述のセットを提供する。
マルチモーダル大言語モデル(MLLM)の最近の進歩がAI生成画像のきめ細かい評価を可能にすることを考慮し、Q-Real Benchを構築し、判断と推論によるグラウンドディングの2つのタスクで評価する。
最後に,MLLM機能を向上させるため,細調整フレームワークを設計し,データセットを用いて複数のMLLM上で実験を行う。
実験の結果,データセットの質と意義,およびベンチマークの包括性を実証した。
データセットとコードは公開時にリリースされる。
関連論文リスト
- UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文 参考訳(メタデータ) (2025-11-03T07:24:57Z) - Human-like Content Analysis for Generative AI with Language-Grounded Sparse Encoders [46.13876748421428]
Language-Grounded Sparses (LanSE)は、画像を自然言語記述で解釈可能な視覚パターンに分解する。
93%の人的合意で5000以上の視覚パターンが検出された。
言語基底パターンを抽出する手法は自然に多くの分野に適用できる。
論文 参考訳(メタデータ) (2025-08-20T06:50:15Z) - Quality Assessment and Distortion-aware Saliency Prediction for AI-Generated Omnidirectional Images [70.49595920462579]
本研究は,AIGODIの品質評価と歪みを考慮したサリエンシ予測問題について検討する。
BLIP-2モデルに基づく共有エンコーダを用いた2つのモデルを提案する。
論文 参考訳(メタデータ) (2025-06-27T05:36:04Z) - RAISE: Realness Assessment for Image Synthesis and Evaluation [3.7619101673213664]
我々は、実感予測のためのベースラインを確立するために、RAISEのモデルを開発し、訓練する。
実験結果から,深い基盤視モデルから得られた特徴が主観的現実性を効果的に捉えることができることが示された。
論文 参考訳(メタデータ) (2025-05-25T17:14:43Z) - ICE-Bench: A Unified and Comprehensive Benchmark for Image Creating and Editing [23.512687688393346]
ICE-Benchは、画像生成モデルを厳格に評価するために設計された包括的なベンチマークである。
評価フレームワークは、6次元にわたる画像生成能力を評価する。
既存の世代モデルを徹底的に分析し、ベンチマークの難易度と現在のモデル能力と実世界の世代要件のギャップを明らかにする。
論文 参考訳(メタデータ) (2025-03-18T17:53:29Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。