論文の概要: AtelierEval: Agentic Evaluation of Humans & LLMs as Text-to-Image Prompters
- arxiv url: http://arxiv.org/abs/2605.22645v1
- Date: Thu, 21 May 2026 15:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.332635
- Title: AtelierEval: Agentic Evaluation of Humans & LLMs as Text-to-Image Prompters
- Title(参考訳): AtelierEval:テキスト・ツー・イメージ・プロンプタとしての人間とLLMのエージェント的評価
- Authors: Hanjun Luo, Zhimu Huang, Sylvia Chung, Yiran Wang, Yingbin Jin, Jialin Li, Jiang Li, Xinfeng Li, Hanan Salam,
- Abstract要約: AtelierEvalは、360のエキスパートによるタスクにまたがる習熟度を定量化する最初の統一ベンチマークである。
スケーラブルで信頼性の高い評価を実現するために,スキルベース,メモリ拡張型エージェント評価器であるAtelierJudgeを提案する。
- 参考スコア(独自算出の注目度): 10.947354016765097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) systems increasingly rely on upstream prompters, either humans or multimodal large language models (MLLMs), to translate user intent into detailed prompts. Yet current benchmarks fix the prompt and only evaluate T2I models, leaving the prompting proficiency of this upstream component entirely unmeasured. We introduce AtelierEval, the first unified benchmark that quantifies prompting proficiency across 360 expert-crafted tasks. Grounded in a cognitive view, it spans three task categories and instantiates tasks using a taxonomy of real-world challenges, with a dual interface for both humans and MLLMs. To enable scalable and reliable evaluation, we propose AtelierJudge, a skill-based, memory-augmented agentic evaluator. It produces subjective and objective scores for prompt-image pairs, achieving a Spearman correlation of 0.79 with human experts, approaching human performance. Extensive experiments benchmark 8 MLLMs against 48 human users across 4 T2I backends, validate AtelierEval as a robust diagnostic tool, and reveal the superiority of mimicry over planning, advocating for an image-augmented direction for future prompters. Our work is released to support future research.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)システムは、ユーザ意図を詳細なプロンプトに変換するために、人間やマルチモーダルな大規模言語モデル(MLLM)といった上流のプロンプトにますます依存している。
しかし、現在のベンチマークではプロンプトが修正され、T2Iモデルのみが評価され、上流コンポーネントの迅速な習熟度は完全に測定されていない。
AtelierEvalは、360のエキスパートによるタスクにまたがる習熟度を定量化する最初の統一ベンチマークである。
認知的な視点で見れば、それは3つのタスクカテゴリにまたがり、実際の課題の分類を用いてタスクをインスタンス化し、人間とMLLMの両方のための二重インターフェースを持つ。
スケーラブルで信頼性の高い評価を実現するために,スキルベース,メモリ拡張型エージェント評価器であるAtelierJudgeを提案する。
プロンプト・イメージのペアに対して主観的、客観的なスコアを生成し、人間の専門家とのスピアマンの相関を0.79と達成し、人間のパフォーマンスに近づいた。
大規模な実験では、4つのT2Iバックエンドにまたがる48人のユーザに対して8つのMLLMをベンチマークし、AtelierEvalを堅牢な診断ツールとして検証し、将来のプロンプトに対してイメージ拡張された方向を提唱する計画よりも模倣の優位性を明らかにする。
私たちの仕事は将来の研究を支援するために解放されます。
関連論文リスト
- Human-MME: A Holistic Evaluation Benchmark for Human-Centric Multimodal Large Language Models [118.44328586173556]
MLLM(Multimodal Large Language Models)は視覚的理解タスクにおいて大きな進歩を見せている。
Human-MMEは、人間中心のシーン理解におけるMLLMのより総合的な評価を提供するために設計された、キュレートされたベンチマークである。
我々のベンチマークは、単一対象の理解を多対多の相互理解に拡張する。
論文 参考訳(メタデータ) (2025-09-30T12:20:57Z) - Pixels, Patterns, but No Poetry: To See The World like Humans [33.773551676022514]
最先端のMLLMは、人間にとって簡単な私たちの知覚上のタスクに破滅的な失敗を示します。
この論文は、推論から知覚へと焦点を移す。
論文 参考訳(メタデータ) (2025-07-21T21:50:16Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Evaluating Hallucination in Text-to-Image Diffusion Models with Scene-Graph based Question-Answering Agent [9.748808189341526]
有効なテキスト・ツー・イメージ(T2I)評価指標は以下のとおりである: 生成された画像がテキストのプロンプトと一致しないインスタンスを検出する。
抽出したシーングラフを用いて質問応答を行うための大規模言語モデル (LLM) に基づく手法を提案し, 生成された画像に対する評価スコアを用いたデータセットを作成する。
論文 参考訳(メタデータ) (2024-12-07T18:44:38Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。