論文の概要: We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2508.10433v1
- Date: Thu, 14 Aug 2025 08:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.228326
- Title: We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning
- Title(参考訳): We-Math 2.0: 視覚数理推論のインセンティブを付与する多彩な数学書システム
- Authors: Runqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, Guanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang,
- Abstract要約: We-Math 2.0は、構造化された数学的知識システム、モデル中心のデータ空間モデリング、強化学習(RL)に基づく訓練パラダイムを統合する統合システムである。
We-Math 2.0の主な貢献は、MathBook Knowledge System、MathBook-Standard、MathBook-Pro、MathBookEvalの4つだ。
実験の結果,MathBook-RLは4つの広く使用されているベンチマークにおいて,既存のベースラインと競合することを示した。
- 参考スコア(独自算出の注目度): 12.304611888070918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across various tasks, but still struggle with complex mathematical reasoning. Existing research primarily focuses on dataset construction and method optimization, often overlooking two critical aspects: comprehensive knowledge-driven design and model-centric data space modeling. In this paper, we introduce We-Math 2.0, a unified system that integrates a structured mathematical knowledge system, model-centric data space modeling, and a reinforcement learning (RL)-based training paradigm to comprehensively enhance the mathematical reasoning abilities of MLLMs. The key contributions of We-Math 2.0 are fourfold: (1) MathBook Knowledge System: We construct a five-level hierarchical system encompassing 491 knowledge points and 1,819 fundamental principles. (2) MathBook-Standard & Pro: We develop MathBook-Standard, a dataset that ensures broad conceptual coverage and flexibility through dual expansion. Additionally, we define a three-dimensional difficulty space and generate 7 progressive variants per problem to build MathBook-Pro, a challenging dataset for robust training. (3) MathBook-RL: We propose a two-stage RL framework comprising: (i) Cold-Start Fine-tuning, which aligns the model with knowledge-oriented chain-of-thought reasoning; and (ii) Progressive Alignment RL, leveraging average-reward learning and dynamic data scheduling to achieve progressive alignment across difficulty levels. (4) MathBookEval: We introduce a comprehensive benchmark covering all 491 knowledge points with diverse reasoning step distributions. Experimental results show that MathBook-RL performs competitively with existing baselines on four widely-used benchmarks and achieves strong results on MathBookEval, suggesting promising generalization in mathematical reasoning.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、様々なタスクにまたがる印象的な能力を示したが、それでも複雑な数学的推論に苦慮している。
既存の研究は主にデータセットの構築とメソッドの最適化に重点を置いており、包括的知識駆動設計とモデル中心のデータ空間モデリングという2つの重要な側面を見落としている。
本稿では、構造化された数学的知識システム、モデル中心のデータ空間モデリング、強化学習(RL)に基づく学習パラダイムを統合し、MLLMの数学的推論能力を総合的に強化するWe-Math 2.0を紹介する。
We-Math 2.0の主な貢献は次の4つである。 (1) MathBook Knowledge System: 491の知識ポイントと1,819の基本原理を含む5段階の階層システムを構築する。
2) MathBook-Standard & Pro: MathBook-Standardを開発した。
さらに,3次元の難易度空間を定義し,問題ごとのプログレッシブな変種を7種類生成して,ロバストトレーニングのための難しいデータセットであるMathBook-Proを構築する。
(3) MathBook-RL: 以下の2段階のRLフレームワークを提案する。
一 モデルと知識指向の連鎖推論を整合させたコールドスタートファインチューニング
(II) 平均回帰学習と動的データスケジューリングを活用し, 難易度をまたいだ漸進的アライメントを実現するプログレッシブアライメントRL。
(4) MathBookEval: 多様な推論ステップの分布を持つ491の知識ポイントすべてをカバーする包括的なベンチマークを導入する。
実験結果から,MathBook-RLは4つの広く使用されているベンチマークにおいて,既存のベースラインと競合し,MathBookEvalの強力な結果が得られ,数学的推論における有望な一般化が示唆された。
関連論文リスト
- Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning [66.43194385702297]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。
NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文 参考訳(メタデータ) (2025-04-15T21:37:13Z) - Benchmarking Large Language Models for Math Reasoning Tasks [12.91916443702145]
我々は、4つの強力な基礎モデル上の5つの広く使われている数学的データセットの数学的問題解決のための、最先端の文脈内学習アルゴリズムを7つ比較した。
以上の結果から, GPT-4o や LLaMA 3-70B のような大規模基盤モデルでは, 具体的なプロンプト戦略とは独立に数学的推論を解くことが可能であることが示唆された。
将来の研究で追加モデルの統合をサポートするために、ベンチマークコードをオープンソースにしています。
論文 参考訳(メタデータ) (2024-08-20T13:34:17Z) - Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models [62.815222721144636]
我々は、LLaVA-1.5ベースのMathV360Kで微調整されたモデルであるMath-LLaVAを紹介する。
この手法はLLaVA-1.5のマルチモーダル数学的推論能力を著しく改善する。
Math-LLaVAは、MMMUベンチマークで大幅に改善された一般化性を示している。
論文 参考訳(メタデータ) (2024-06-25T05:43:21Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。