論文の概要: GM-PRM: A Generative Multimodal Process Reward Model for Multimodal Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2508.04088v2
- Date: Thu, 07 Aug 2025 03:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 11:49:27.104918
- Title: GM-PRM: A Generative Multimodal Process Reward Model for Multimodal Mathematical Reasoning
- Title(参考訳): GM-PRM:マルチモーダル数学的推論のための生成的マルチモーダルプロセスリワードモデル
- Authors: Jianghangfan Zhang, Yibo Yan, Kening Zheng, Xin Zou, Song Dai, Xuming Hu,
- Abstract要約: GM-PRM(Generative Multimodal Process Reward Model)を紹介する。
単純なスカラースコアの代わりに、GM-PRMは各推論ステップのきめ細かい解釈可能な分析を提供する。
GM-PRMは複数のマルチモーダル数学ベンチマークにおいて最先端の計算結果が得られることを示す。
- 参考スコア(独自算出の注目度): 12.724393910603299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) demonstrate remarkable capabilities but often struggle with complex, multi-step mathematical reasoning, where minor errors in visual perception or logical deduction can lead to complete failure. While Process Reward Models (PRMs) offer step-by-step supervision, existing multimodal PRMs are limited to being binary verifiers that can identify but not correct errors, offering little explanatory power. To address these deficiencies, we introduce the Generative Multimodal Process Reward Model (GM-PRM), a novel paradigm that transforms the PRM from a passive judge into an active reasoning collaborator. Instead of a simple scalar score, GM-PRM provides a fine-grained, interpretable analysis of each reasoning step, evaluating its step intent, visual alignment, and logical soundness. More critically, GM-PRM is trained to generate a corrected version of the first erroneous step it identifies. This unique corrective capability enables our new test-time inference strategy, Refined Best-of-N (Refined-BoN). This framework actively enhances solution quality by using the PRM's generated correction to guide the policy model toward a more promising reasoning trajectory, thereby improving the diversity and correctness of the solution pool. We demonstrate that GM-PRM achieves state-of-the-art results on multiple multimodal math benchmarks, significantly boosting policy model performance with remarkable data efficiency, requiring only a 20K-sample training dataset. Our code will be released upon acceptance.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は目覚しい能力を示すが、視覚的知覚や論理的推論の小さな誤りが完全な失敗につながる複雑な数学的推論に苦慮することが多い。
Process Reward Models (PRM) はステップバイステップの監視を提供するが、既存のマルチモーダル PRM はバイナリ検証に限られており、誤りを識別できるが説明力はほとんどない。
これらの欠陥に対処するために,PRMを受動的判断器から能動的推論協調器に変換する新しいパラダイムであるGM-PRM(Generative Multimodal Process Reward Model)を導入する。
単純なスカラースコアの代わりに、GM-PRMは各推論ステップの細粒度で解釈可能な分析を行い、そのステップ意図、視覚的アライメント、論理的健全性を評価する。
さらに重要なことに、GM-PRMは、それが識別する最初の誤ったステップの修正バージョンを生成するように訓練されている。
このユニークな補正機能は、新しいテスト時間推論戦略、Refined Best-of-N (Refined-BoN)を可能にする。
このフレームワークは、PRMの生成した補正を用いて、より有望な推論軌道に向けてポリシーモデルを導くことにより、ソリューションプールの多様性と正しさを向上させることにより、ソリューション品質を積極的に向上する。
我々は,GM-PRMが複数のマルチモーダル数学ベンチマークの最先端結果を実現し,データ効率が著しく向上し,20Kサンプルのトレーニングデータセットのみを必要とすることを実証した。
私たちのコードは受け入れ次第解放されます。
関連論文リスト
- Uncertainty-Based Methods for Automated Process Reward Data Construction and Output Aggregation in Mathematical Reasoning [10.227089771963943]
本稿では,自動プロセス報酬データ構築のための不確実性駆動型フレームワークを提案する。
本稿では,2つの一般的な不確実性を考慮した出力アグリゲーション手法を提案する。
ProcessBench、MATH、GSMPlusの実験では、提案したPRMデータ構築フレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2025-08-03T14:14:13Z) - Towards Robust Multimodal Emotion Recognition under Missing Modalities and Distribution Shifts [8.259321830040204]
本稿では,モダリティの欠如とOF-Distribution(OOD)データの両方を同時に扱うための新しいフレームワークを提案する。
CIDerはMSSD(Model-Specific Self-Distillation)モジュールとMACI(Model-Agnostic Causal Inference)モジュールという2つの重要なコンポーネントを統合している。
実験の結果、CIDerはRMFMとOODの両方のシナリオでロバストな性能を示し、パラメータは少なく、最先端の手法に比べて訓練が速い。
論文 参考訳(メタデータ) (2025-06-12T07:58:17Z) - Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。
Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。
Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文 参考訳(メタデータ) (2025-05-29T11:40:34Z) - DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning [33.574626079343936]
マルチモーダルPRMのためのドメイン重み付けトレーニングフレームワークであるDreamPRMを紹介する。
低レベルの最適化では、DreamPRMはドメイン重み付き複数のデータセットで微調整を行う。
上位レベルの最適化では、PRMは別個のメタ学習データセットで評価される。
論文 参考訳(メタデータ) (2025-05-26T17:20:17Z) - MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z) - MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification [27.594868471770475]
推論は、複雑なタスクに対処する大きな言語モデル(LLM)にとって必須の能力である。
プロセスレベルの報酬モデル(PRM)は、強化学習とデータ生産を容易にする段階的な報酬を提供するために提案された。
PRMの既存のベンチマークはテキストベースで、エラー検出に重点を置いており、推論検索のような他のシナリオを無視している。
MPBenchは、様々なシナリオにおけるPRMの有効性を体系的に評価するために設計された、総合的でマルチタスクのマルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2025-03-16T13:50:38Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。