論文の概要: MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification
- arxiv url: http://arxiv.org/abs/2503.12505v1
- Date: Sun, 16 Mar 2025 13:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:08.447948
- Title: MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification
- Title(参考訳): MPBench: プロセスエラー識別のための総合的マルチモーダル推論ベンチマーク
- Authors: Zhaopan Xu, Pengfei Zhou, Jiaxin Ai, Wangbo Zhao, Kai Wang, Xiaojiang Peng, Wenqi Shao, Hongxun Yao, Kaipeng Zhang,
- Abstract要約: 推論は、複雑なタスクに対処する大きな言語モデル(LLM)にとって必須の能力である。
プロセスレベルの報酬モデル(PRM)は、強化学習とデータ生産を容易にする段階的な報酬を提供するために提案された。
PRMの既存のベンチマークはテキストベースで、エラー検出に重点を置いており、推論検索のような他のシナリオを無視している。
MPBenchは、様々なシナリオにおけるPRMの有効性を体系的に評価するために設計された、総合的でマルチタスクのマルチモーダルベンチマークである。
- 参考スコア(独自算出の注目度): 27.594868471770475
- License:
- Abstract: Reasoning is an essential capacity for large language models (LLMs) to address complex tasks, where the identification of process errors is vital for improving this ability. Recently, process-level reward models (PRMs) were proposed to provide step-wise rewards that facilitate reinforcement learning and data production during training and guide LLMs toward correct steps during inference, thereby improving reasoning accuracy. However, existing benchmarks of PRMs are text-based and focus on error detection, neglecting other scenarios like reasoning search. To address this gap, we introduce MPBench, a comprehensive, multi-task, multimodal benchmark designed to systematically assess the effectiveness of PRMs in diverse scenarios. MPBench employs three evaluation paradigms, each targeting a specific role of PRMs in the reasoning process: (1) Step Correctness, which assesses the correctness of each intermediate reasoning step; (2) Answer Aggregation, which aggregates multiple solutions and selects the best one; and (3) Reasoning Process Search, which guides the search for optimal reasoning steps during inference. Through these paradigms, MPBench makes comprehensive evaluations and provides insights into the development of multimodal PRMs.
- Abstract(参考訳): 推論は、複雑なタスクに対処する大きな言語モデル(LLM)にとって必須の能力であり、プロセスエラーの識別は、この能力を改善するために不可欠である。
近年, プロセスレベルの報酬モデル (PRM) が提案され, トレーニング中の強化学習とデータ生成を容易にし, 推論中の正しいステップに向けてLLMを誘導し, 推論精度を向上させる。
しかし、既存のPRMのベンチマークはテキストベースであり、推論検索のような他のシナリオを無視し、エラー検出に重点を置いている。
このギャップに対処するために,多様なシナリオにおいてPRMの有効性を体系的に評価するために設計された,包括的でマルチタスクなマルチモーダルベンチマークMPBenchを紹介する。
MPBenchは3つの評価パラダイムを用いており、それぞれが推論過程におけるPRMの特定の役割を目標としており、(1)中間推論ステップの正しさを評価するステップ正しさ、(2)複数の解を集約して最適な解を選択する回答集約、(3)推論中の最適な推論ステップを探索する推論プロセス探索である。
これらのパラダイムを通じて、MPBenchは包括的な評価を行い、マルチモーダルPRMの開発に関する洞察を提供する。
関連論文リスト
- AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence [29.551802573731305]
本稿では,モデルが次の単語を予測する自信に基づいて推論ステップを分割する手法であるAdaptiveStepを提案する。
数理推論およびコード生成タスクにおいて,AdaptiveStep-trained PRMを用いた実験により実効性を示す。
論文 参考訳(メタデータ) (2025-02-19T18:35:55Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models [28.74956741932006]
PRMベンチ(PRM Bench)は, PRMの微細な誤差検出機能を評価するための, プロセスレベルのベンチマークである。
PRMBenchは、6,216の慎重に設計された問題と83,456のステップレベルラベルで構成され、複数の次元にわたるモデルを評価する。
論文 参考訳(メタデータ) (2025-01-06T16:31:45Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Process Reward Model with Q-Value Rankings [18.907163177605607]
プロセス・リワード・モデリング(PRM)は複雑な推論と意思決定に不可欠である。
本稿では,マルコフ決定プロセスの文脈でPRMを再定義する新しいフレームワークであるProcess Q-value Model(PQM)を紹介する。
PQMは、新しい比較損失関数に基づいてQ値ランキングを最適化し、シーケンシャルな決定の中で複雑なダイナミクスをキャプチャするモデルの能力を向上する。
論文 参考訳(メタデータ) (2024-10-15T05:10:34Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。