論文の概要: Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation
- arxiv url: http://arxiv.org/abs/2601.20614v1
- Date: Wed, 28 Jan 2026 13:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.955194
- Title: Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation
- Title(参考訳): 難解なGRPOとマルチアスペクト質問の改定による数学的推論の促進
- Authors: Yanqi Dai, Yuxiang Ji, Xiao Zhang, Yong Wang, Xiangxiang Chu, Zhiwu Lu,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR)は、大規模モデルにおける数学的推論を強化するための堅牢なメカニズムを提供する。
我々は、アルゴリズムとデータの観点から、既存の手法におけるより困難な問題に、体系的に重点を置いていないことを確認した。
両視点から難しい質問を対象とし,数学的推論を改善するための2次元MathForgeフレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.648918066305693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) offers a robust mechanism for enhancing mathematical reasoning in large models. However, we identify a systematic lack of emphasis on more challenging questions in existing methods from both algorithmic and data perspectives, despite their importance for refining underdeveloped capabilities. Algorithmically, widely used Group Relative Policy Optimization (GRPO) suffers from an implicit imbalance where the magnitude of policy updates is lower for harder questions. Data-wise, augmentation approaches primarily rephrase questions to enhance diversity without systematically increasing intrinsic difficulty. To address these issues, we propose a two-dual MathForge framework to improve mathematical reasoning by targeting harder questions from both perspectives, which comprises a Difficulty-Aware Group Policy Optimization (DGPO) algorithm and a Multi-Aspect Question Reformulation (MQR) strategy. Specifically, DGPO first rectifies the implicit imbalance in GRPO via difficulty-balanced group advantage estimation, and further prioritizes harder questions by difficulty-aware question-level weighting. Meanwhile, MQR reformulates questions across multiple aspects to increase difficulty while maintaining the original gold answer. Overall, MathForge forms a synergistic loop: MQR expands the data frontier, and DGPO effectively learns from the augmented data. Extensive experiments show that MathForge significantly outperforms existing methods on various mathematical reasoning tasks. The code and augmented data are all available at https://github.com/AMAP-ML/MathForge.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)は、大規模モデルにおける数学的推論を強化するための堅牢なメカニズムを提供する。
しかし,アルゴリズムとデータの観点からは,未開発機能の洗練が重要でありながら,既存の手法における課題の体系的欠如が認識されている。
アルゴリズム的には、広く使われているグループ相対政策最適化(GRPO)は、難しい問題に対してポリシー更新の規模が小さくなる暗黙のアンバランスに悩まされる。
データ面では、拡張アプローチは主に、本質的な難易度を体系的に増加させることなく、多様性を高めるために質問を言い換える。
これらの課題に対処するために,DGPO (Difficulty-Aware Group Policy Optimization) アルゴリズムとMQR (Multi-Aspect Question Reformulation) 戦略を含む両視点から難しい質問を対象とし,数学的推論を改善するための2次元MathForgeフレームワークを提案する。
具体的には、DGPOは、まず難解群優位推定によりGRPOの暗黙的不均衡を補正し、さらに難易度問合せ重み付けによりより難しい質問を優先順位付けする。
一方、MQRは複数の側面にまたがって質問を再構成し、オリジナルのゴールド回答を維持しながら難易度を高めている。
MQRはデータフロンティアを拡張し、DGPOは拡張データから効果的に学習する。
大規模な実験により、MathForgeは様々な数学的推論タスクにおいて既存の手法よりも大幅に優れていることが示された。
コードと拡張データはhttps://github.com/AMAP-ML/MathForge.comで公開されている。
関連論文リスト
- GRADE: Generating multi-hop QA and fine-gRAined Difficulty matrix for RAG Evaluation [5.002953635224383]
Retrieval-Augmented Generation (RAG) システムは知識集約型NLPタスクに広く採用されている。
現在の評価は、実世界のシナリオで必要とされる構造的な複雑さと多段階の推論を見落としていることが多い。
タスクの難易度を2次元でモデル化する新しい評価フレームワークであるtextscGRADEを提案する。
論文 参考訳(メタデータ) (2025-08-23T11:26:41Z) - PGDA-KGQA: A Prompt-Guided Generative Framework with Multiple Data Augmentation Strategies for Knowledge Graph Question Answering [3.8623708225544755]
知識グラフ質問回答(KGQA)は自然言語処理において重要な課題である。
PGDA-KGQA は,KGQA のための複数のデータ拡張戦略を備えた,プロンプト誘導型生成フレームワークである。
実験により、PGDA-KGQAは標準KGQAの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-06-11T05:56:03Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。
MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。
複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文 参考訳(メタデータ) (2025-05-20T18:33:03Z) - Nemotron-CrossThink: Scaling Self-Learning beyond Math Reasoning [66.43194385702297]
大規模言語モデル(LLM)は、特に強化学習(RL)を通じて強化された場合、強力な推論能力を示している。
NEMOTRON-CROSSTHINKは、多領域コーパスを体系的に組み込んだフレームワークであり、合成および実世界の問合せ対を含む。
論文 参考訳(メタデータ) (2025-04-15T21:37:13Z) - Big-Math: A Large-Scale, High-Quality Math Dataset for Reinforcement Learning in Language Models [11.706309334631985]
Big-Mathは、25万以上の高品質な数学の質問と、検証可能な回答のデータセットです。
強化学習(RL)のためのBig-Math
論文 参考訳(メタデータ) (2025-02-24T18:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。