論文の概要: MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision
- arxiv url: http://arxiv.org/abs/2505.13427v1
- Date: Mon, 19 May 2025 17:55:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.794791
- Title: MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision
- Title(参考訳): MM-PRM:スケーラブルステップレベルスーパービジョンによるマルチモーダル数学的推論の強化
- Authors: Lingxiao Du, Fanqing Meng, Zongkai Liu, Zhixiang Zhou, Ping Luo, Qiaosheng Zhang, Wenqi Shao,
- Abstract要約: 完全に自動化されたスケーラブルなフレームワーク内でトレーニングされたプロセス報酬モデルであるMM-PRMを提案する。
我々はまず,多様な数学的推論データに基づいて訓練された強力なマルチモーダルモデルMM-Policyを構築した。
人間のラベル付けなしで700万以上のステップレベルのアノテーションを生成します。
- 参考スコア(独自算出の注目度): 27.571090189791303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have achieved impressive progress in vision-language understanding, they still struggle with complex multi-step reasoning, often producing logically inconsistent or partially correct solutions. A key limitation lies in the lack of fine-grained supervision over intermediate reasoning steps. To address this, we propose MM-PRM, a process reward model trained within a fully automated, scalable framework. We first build MM-Policy, a strong multimodal model trained on diverse mathematical reasoning data. Then, we construct MM-K12, a curated dataset of 10,000 multimodal math problems with verifiable answers, which serves as seed data. Leveraging a Monte Carlo Tree Search (MCTS)-based pipeline, we generate over 700k step-level annotations without human labeling. The resulting PRM is used to score candidate reasoning paths in the Best-of-N inference setup and achieves significant improvements across both in-domain (MM-K12 test set) and out-of-domain (OlympiadBench, MathVista, etc.) benchmarks. Further analysis confirms the effectiveness of soft labels, smaller learning rates, and path diversity in optimizing PRM performance. MM-PRM demonstrates that process supervision is a powerful tool for enhancing the logical robustness of multimodal reasoning systems. We release all our codes and data at https://github.com/ModalMinds/MM-PRM.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は視覚言語理解において目覚しい進歩を遂げているが、それでも複雑な多段階推論に苦慮し、論理的に矛盾する、あるいは部分的に正しい解を生成することが多い。
重要な制限は、中間的推論ステップに対するきめ細かい監督の欠如にある。
そこで我々は,完全に自動化されたスケーラブルなフレームワーク内でトレーニングされたプロセス報酬モデルMM-PRMを提案する。
我々はまず,多様な数学的推論データに基づいて訓練された強力なマルチモーダルモデルMM-Policyを構築した。
MM-K12は1万のマルチモーダルな数学問題と検証可能な回答からなる計算データセットで、シードデータとして機能する。
Monte Carlo Tree Search(MCTS)ベースのパイプラインを利用することで、人間のラベルなしで700万以上のステップレベルのアノテーションを生成します。
結果のPRMはBest-of-N推論設定における候補推論パスのスコア付けに使用され、ドメイン内(MM-K12テストセット)とアウト・オブ・ドメイン(OlympiadBench、MathVistaなど)のベンチマークの両方で大幅に改善される。
さらに解析により, PRM性能の最適化において, ソフトラベルの有効性, 学習率の低下, 経路の多様性が確認された。
MM-PRMは、プロセスの監督がマルチモーダル推論システムの論理的堅牢性を高める強力なツールであることを示した。
私たちは、すべてのコードとデータをhttps://github.com/ModalMinds/MM-PRM.comでリリースします。
関連論文リスト
- Process Reward Models That Think [86.88809596842428]
ステップバイステップ検証 - プロセス報酬モデル(PRM)としても知られる - は、テスト時間スケーリングの鍵となる要素である。
この研究は、検証チェーン・オブ・シント(CoT)を生成することにより、ソリューションのすべてのステップを検証する言語化されたステップワイド報酬モデルとして、データ効率の高いPRMを構築することを目的としている。
我々は差別的PRMよりもプロセスラベルを桁違いに少なめに微調整した長いCoT検証器ThinkPRMを提案する。
論文 参考訳(メタデータ) (2025-04-23T15:44:54Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。
前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。
後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-10T14:23:12Z) - MM-Verify: Enhancing Multimodal Reasoning with Chain-of-Thought Verification [20.071520400080022]
MM-VerifierとMM-Reasonerを導入し、より長い推論とより堅牢な検証を通じてマルチモーダル推論を強化する。
MM-ReasonerとMM-Verifierを組み合わせた場合,MathVistaで65.3の精度を実現する。
論文 参考訳(メタデータ) (2025-02-19T02:46:52Z) - URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics [25.308196207219613]
CoT推論は大規模言語モデル(LLM)の数学的推論能力を高めるために広く用いられている。
本研究では,マルチモーダルな数学的推論にシステム2スタイルの思考を導入する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-08T18:49:41Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。