論文の概要: Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image
- arxiv url: http://arxiv.org/abs/2512.16899v1
- Date: Thu, 18 Dec 2025 18:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.238384
- Title: Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image
- Title(参考訳): Multimodal RewardBench 2: インターリーブテキストと画像のためのOmni Rewardモデルの評価
- Authors: Yushi Hu, Reyhane Askari-Hemmat, Melissa Hall, Emily Dinan, Luke Zettlemoyer, Marjan Ghazvininejad,
- Abstract要約: マルチモーダル・リワードベンチ2(MMRB2)は,マルチモーダル理解と(インターリーブされた)生成に対する報酬モデルの最初のベンチマークである。
MMRB2はテキスト・ツー・イメージ、画像編集、インターリーブド・ジェネレーション、マルチモーダル推論の4つのタスクにまたがる。
21のソースタスクにわたる23のモデルとエージェントから、タスク毎に1000のエキスパートアノテートされた好みペアを提供する。
- 参考スコア(独自算出の注目度): 58.14192385042352
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reward models (RMs) are essential for training large language models (LLMs), but remain underexplored for omni models that handle interleaved image and text sequences. We introduce Multimodal RewardBench 2 (MMRB2), the first comprehensive benchmark for reward models on multimodal understanding and (interleaved) generation. MMRB2 spans four tasks: text-to-image, image editing, interleaved generation, and multimodal reasoning ("thinking-with-images"), providing 1,000 expert-annotated preference pairs per task from 23 models and agents across 21 source tasks. MMRB2 is designed with: (1) practical but challenging prompts; (2) responses from state-of-the-art models and agents; and (3) preference pairs with strong human-expert consensus, curated via an ensemble filtering strategy. Using MMRB2, we study existing judges for each subtask, including multimodal LLM-as-a-judge and models trained with human preferences. The latest Gemini 3 Pro attains 75-80% accuracy. GPT-5 and Gemini 2.5 Pro reach 66-75% accuracy, compared to >90% for humans, yet surpass the widely used GPT-4o (59%). The best performing open-source model Qwen3-VL-32B achieves similar accuracies as Gemini 2.5 Flash (64%). We also show that MMRB2 performance strongly correlates with downstream task success using Best-of-N sampling and conduct an in-depth analysis that shows key areas to improve the reward models going forward.
- Abstract(参考訳): リワードモデル (RM) は大規模言語モデル (LLM) の訓練に必須であるが、インターリーブ画像やテキストシーケンスを扱うオムニモデルには未熟である。
マルチモーダル・リワードベンチ2(MMRB2)は、マルチモーダル理解と(インターリーブされた)生成に関する報酬モデルのための最初の総合的なベンチマークである。
MMRB2は、テキスト・トゥ・イメージ、画像編集、インターリーブド・ジェネレーション、マルチモーダル・推論("thinking-with-images")という4つのタスクにまたがる。
MMRB2は,(1)実用的だが挑戦的なプロンプト,(2)最先端のモデルとエージェントからの応答,(3)強力な人間-専門家のコンセンサスを持つ選好ペアをアンサンブルフィルタリング戦略でキュレートする。
MMRB2 を用いて,マルチモーダル LLM-as-a-judge や人間の嗜好で訓練されたモデルを含む,各サブタスクに対する既存の判断について検討した。
最新のGemini 3 Proは75~80%の精度だ。
GPT-5 と Gemini 2.5 Pro の精度は 66-75% であるのに対し、ヒトは 90% であるが、広く使用されている GPT-4o (59%) を上回っている。
最高のパフォーマンスのオープンソースモデルであるQwen3-VL-32Bは、Gemini 2.5 Flash(64%)と同様の精度を実現している。
また,MMRB2の性能は,Best-of-Nサンプリングを用いたダウンストリームタスクの成功と強く相関し,今後の報奨モデルを改善するための重要な領域を示す詳細な分析を行う。
関連論文リスト
- Scheming Ability in LLM-to-LLM Strategic Interactions [4.873362301533824]
大規模言語モデル(LLM)エージェントは、さまざまな状況下で自律的にデプロイされる。
2つのゲーム理論フレームワークによるフロンティアLSMエージェントの能力と妥当性について検討する。
試験用4機種(GPT-4o、Gemini-2.5-pro、Claude-3.7-Sonnet、Llama-3.3-70b)
論文 参考訳(メタデータ) (2025-10-11T04:42:29Z) - MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation [81.26818054877658]
MMMGは、4つのモダリティの組み合わせにまたがるマルチモーダル生成の包括的なベンチマークである。
人間の評価と高度に一致し、平均94.3%の合意を達成している。
GPTイメージは画像生成の精度は78.3%であるが、マルチモーダル推論とインターリーブ生成では不足している。
論文 参考訳(メタデータ) (2025-05-23T08:21:28Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - Multimodal RewardBench: Holistic Evaluation of Reward Models for Vision Language Models [82.92771279118888]
マルチモーダル報酬モデルを評価するためのエキスパートアノテートベンチマークであるMultimodal RewardBenchを紹介する。
我々のデータセットは、様々な視覚言語モデルから収集された5,211個の注釈付き(プロンプト、選択された応答、拒否された応答)三つ子からなる。
Gemini 1.5 ProやClaude 3.5 Sonnetといったトップパフォーマンスモデルでさえ、全体的な精度は72%に過ぎません。
論文 参考訳(メタデータ) (2025-02-20T01:48:13Z) - InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model [80.93387166769679]
IXC-2.5-Rewardは、大規模視覚言語モデルと人間の好みを一致させる、単純で効果的なマルチモーダル報酬モデルである。
IXC-2.5-Rewardは、最新のマルチモーダル報酬モデルベンチマークにおいて優れた結果を得るとともに、テキストのみの報酬モデルベンチマーク上での競合性能を示す。
論文 参考訳(メタデータ) (2025-01-21T18:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。