論文の概要: VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models
- arxiv url: http://arxiv.org/abs/2503.07478v1
- Date: Mon, 10 Mar 2025 15:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:45.02119
- Title: VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models
- Title(参考訳): VLRMBench:ビジョン・ランゲージ・リワードモデルのための総合的・複雑化ベンチマーク
- Authors: Jiacheng Ruan, Wenzhen Yuan, Xian Gao, Ye Guo, Daoxin Zhang, Zhe Xu, Yao Hu, Ting Liu, Yuzhuo Fu,
- Abstract要約: 視覚言語モデル(VLRM)は、推論プロセスにおいてますます重要になっている。
既存の視覚言語RM(VLRM)のベンチマークは、通常、その能力の1つの側面しか評価しない。
我々は、12,634の質問を含むVLRMBenchと呼ばれる包括的で挑戦的なベンチマークを提案する。
- 参考スコア(独自算出の注目度): 40.87249469370042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large visual-language models (LVLMs) have demonstrated strong performance in multimodal tasks, errors may occasionally arise due to biases during the reasoning process. Recently, reward models (RMs) have become increasingly pivotal in the reasoning process. Specifically, process RMs evaluate each reasoning step, outcome RMs focus on the assessment of reasoning results, and critique RMs perform error analysis on the entire reasoning process, followed by corrections. However, existing benchmarks for vision-language RMs (VLRMs) typically assess only a single aspect of their capabilities (e.g., distinguishing between two answers), thus limiting the all-round evaluation and restricting the development of RMs in the visual-language domain. To address this gap, we propose a comprehensive and challenging benchmark, dubbed as VLRMBench, encompassing 12,634 questions. VLRMBench is constructed based on three distinct types of datasets, covering mathematical reasoning, hallucination understanding, and multi-image understanding. We design 12 tasks across three major categories, focusing on evaluating VLRMs in the aspects of process understanding, outcome judgment, and critique generation. Extensive experiments are conducted on 21 open-source models and 5 advanced closed-source models, highlighting the challenges posed by VLRMBench. For instance, in the `Forecasting Future', a binary classification task, the advanced GPT-4o achieves only a 76.0% accuracy. Additionally, we perform comprehensive analytical studies, offering valuable insights for the future development of VLRMs. We anticipate that VLRMBench will serve as a pivotal benchmark in advancing VLRMs. Code and datasets will be available at https://github.com/JCruan519/VLRMBench.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)はマルチモーダルタスクにおいて強い性能を示すが、推論過程のバイアスによってエラーが発生することがある。
近年、報酬モデル(RM)は推論プロセスにおいてますます重要になっている。
具体的には、プロセスRMは、各推論ステップを評価し、結果RMは、推論結果の評価に焦点を当て、批判RMは、推論プロセス全体に対してエラー解析を行い、修正を行う。
しかしながら、視覚言語RM(VLRM)の既存のベンチマークは、通常、その能力の1つの側面(例えば、2つの答えを区別する)しか評価しないため、全体評価は制限され、視覚言語領域におけるRMの開発は制限される。
このギャップに対処するために、12,634の質問を含む、VLRMBenchと呼ばれる包括的で挑戦的なベンチマークを提案する。
VLRMBenchは3つの異なるタイプのデータセットに基づいて構築され、数学的推論、幻覚理解、マルチイメージ理解をカバーしている。
本研究は,プロセス理解,結果判断,批判生成の側面において,VLRMの評価に焦点をあてて,3つの主要なカテゴリにまたがる12のタスクを設計する。
大規模な実験は、21のオープンソースモデルと5つの高度なクローズドソースモデルで行われ、VLRMBenchがもたらす課題を強調している。
例えば、バイナリ分類タスクである ‘Forecasting Future’ では、高度な GPT-4o は76.0%の精度しか達成していない。
さらに、我々は、VLRMの今後の発展に有用な洞察を提供する包括的な分析研究を行っている。
我々は、VLRMBenchがVLRMの進展における重要なベンチマークとなることを期待する。
コードとデータセットはhttps://github.com/JCruan519/VLRMBench.comから入手できる。
関連論文リスト
- VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [90.65399476233495]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論タイプに焦点を当てている。
本稿では,人間の判断とLMM-as-a-judgeアプローチの両方を用いて,指示推論,外観整合性,視覚的可視性を評価する評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization [26.757458496178437]
視覚知覚と深い推論のギャップを埋めるために設計されたマルチモーダル推論モデルであるR1-Onevisionを紹介する。
我々はR1-Onevisionデータセットを構築し、多様なドメインにまたがる詳細かつステップバイステップのマルチモーダル推論アノテーションを提供する。
先進的推論を育成するために,教師付き微調整と強化学習によりR1-Onevisionモデルをさらに発展させる。
実験結果から,R1-OnevisionはGPT-4oやQwen2.5-VLなど,最先端のモデルよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-03-13T17:56:05Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models [28.74956741932006]
PRMベンチ(PRM Bench)は, PRMの微細な誤差検出機能を評価するための, プロセスレベルのベンチマークである。
PRMBenchは、6,216の慎重に設計された問題と83,456のステップレベルラベルで構成され、複数の次元にわたるモデルを評価する。
論文 参考訳(メタデータ) (2025-01-06T16:31:45Z) - VLRewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在のアセスメント手法は、従来のタスクからAIアノテートされた好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがるベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - Intriguing Properties of Large Language and Vision Models [18.449076451976236]
大規模言語とビジョンモデル(LLVM)は、その顕著な一般化性能のために、大きな注目と開発努力を受けている。
高度な推論タスクの達成にもかかわらず、基本的な知覚関連タスクのパフォーマンスは驚くほど低いままである。
LLVMの最も一般的なファミリー(LLaVA)を10評価ベンチマークで評価することで、この問題を調査する。
論文 参考訳(メタデータ) (2024-10-07T05:07:01Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。