論文の概要: UEval: A Benchmark for Unified Multimodal Generation
- arxiv url: http://arxiv.org/abs/2601.22155v1
- Date: Thu, 29 Jan 2026 18:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.110493
- Title: UEval: A Benchmark for Unified Multimodal Generation
- Title(参考訳): UEval: 統一マルチモーダル生成のためのベンチマーク
- Authors: Bo Li, Yida Yin, Wenhao Chai, Xingyu Fu, Zhuang Liu,
- Abstract要約: UEvalは、画像とテキストの両方を生成することができる統一モデルを評価するためのベンチマークである。
UEvalは1000の専門家による質問で構成され、モデル出力に画像とテキストの両方を必要とする。
得られた質問は、ステップバイステップのガイドから教科書の説明まで、幅広い推論タイプをカバーしています。
- 参考スコア(独自算出の注目度): 27.555018737280772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce UEval, a benchmark to evaluate unified models, i.e., models capable of generating both images and text. UEval comprises 1,000 expert-curated questions that require both images and text in the model output, sourced from 8 real-world tasks. Our curated questions cover a wide range of reasoning types, from step-by-step guides to textbook explanations. Evaluating open-ended multimodal generation is non-trivial, as simple LLM-as-a-judge methods can miss the subtleties. Different from previous works that rely on multimodal Large Language Models (MLLMs) to rate image quality or text accuracy, we design a rubric-based scoring system in UEval. For each question, reference images and text answers are provided to a MLLM to generate an initial rubric, consisting of multiple evaluation criteria, and human experts then refine and validate these rubrics. In total, UEval contains 10,417 validated rubric criteria, enabling scalable and fine-grained automatic scoring. UEval is challenging for current unified models: GPT-5-Thinking scores only 66.4 out of 100, while the best open-source model reaches merely 49.1. We observe that reasoning models often outperform non-reasoning ones, and transferring reasoning traces from a reasoning model to a non-reasoning model significantly narrows the gap. This suggests that reasoning may be important for tasks requiring complex multimodal understanding and generation.
- Abstract(参考訳): UEvalは、統一されたモデル、すなわち画像とテキストの両方を生成することができるモデルを評価するためのベンチマークである。
UEvalは,8つの実世界のタスクから得られた,モデル出力のイメージとテキストの両方を必要とする,専門家による1000の質問で構成されている。
得られた質問は、ステップバイステップのガイドから教科書の説明まで、幅広い推論タイプをカバーしています。
LLM-as-a-judge法は微妙さを見逃しかねないため、オープンエンドマルチモーダル生成の評価は簡単ではない。
画像の質やテキストの精度を評価するためにMLLM(Multimodal Large Language Models)を使った以前の研究とは異なり、UEvalでルーリックベースのスコアリングシステムを設計する。
各質問に対して、参照画像とテキスト回答をMLLMに提供し、複数の評価基準からなる初期ルーリックを生成し、そのルーリックを洗練し、検証する。
UEvalには10,417の検証済みルーブリック基準が含まれており、スケーラブルできめ細かい自動スコアリングを可能にしている。
GPT-5-Thinkingのスコアは100点中66.4点、最高のオープンソースモデルは49.1点である。
推論モデルはしばしば非推論モデルよりも優れており、推論モデルから非推論モデルへの推論トレースの転送はギャップを著しく狭める。
これは、複雑なマルチモーダル理解と生成を必要とするタスクには推論が重要であることを示唆している。
関連論文リスト
- UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning [26.133555631867385]
OneRewardは統合強化学習フレームワークで、複数のタスクにわたってモデルの生成能力を向上する。
マルチタスク強化学習によるマスク誘導生成モデルであるSeedream 3.0 Fillを開発した。
論文 参考訳(メタデータ) (2025-08-28T17:59:46Z) - WikiMixQA: A Multimodal Benchmark for Question Answering over Tables and Charts [14.966795545558474]
本稿では,4000ページのウィキペディアページから抽出したテーブルとチャートの相互モーダル推論を評価するベンチマークであるWikiMixQAを紹介する。
本研究では,12種類の最先端の視覚言語モデルを評価し,プロプライエタリなモデルでは直接コンテキストで70%の精度が得られたが,長い文書からの検索が必要な場合,その性能は著しく低下することを示した。
論文 参考訳(メタデータ) (2025-06-18T16:09:18Z) - Does Context Matter? ContextualJudgeBench for Evaluating LLM-based Judges in Contextual Settings [36.449658676568234]
大規模言語モデル(LLM)-as-judgeパラダイムは、モデル出力の安価で信頼性の高い高速な評価要求を満たすために使われてきた。
実世界の文脈評価シナリオにインスパイアされた8つの分割に対して2,000の挑戦的な応答対を持つ判定ベンチマークであるContextualJudgeBenchを提案する。
我々の総合的研究は、文脈情報とその評価基準が最先端モデルにおいても重要な課題であることを示している。
論文 参考訳(メタデータ) (2025-03-19T18:09:19Z) - OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation [59.53678957969471]
MLLM(Multimodal Large Language Models)は視覚的理解と生成に大きく貢献している。
インターリーブされた画像テキストコンテンツを生成することは、依然として課題である。
Openingは56の現実世界のタスクにわたる5,400の高品質なヒューマンアノテートインスタンスからなるベンチマークである。
IntJudgeはオープンなマルチモーダル生成手法を評価するための判断モデルである。
論文 参考訳(メタデータ) (2024-11-27T16:39:04Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - REBUS: A Robust Evaluation Benchmark of Understanding Symbols [1.90463290938268]
GPT-4oは他の全てのモデルよりも大幅に優れ、続いてプロプライエタリなモデルも他の評価モデルよりも優れていた。
最高のモデルでさえ、最終的な精度はわずか42%で、ハードパズルでは7%に低下する。
したがって、我々のベンチマークは、マルチモーダルな大言語モデルの知識と推論における大きな欠点を特定するのに利用できる。
論文 参考訳(メタデータ) (2024-01-11T00:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。