論文の概要: ReverseMath: Answer Inversion for Scalable and Verifiable Mathematical Problem Generation
- arxiv url: http://arxiv.org/abs/2605.27709v1
- Date: Tue, 26 May 2026 21:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.53519
- Title: ReverseMath: Answer Inversion for Scalable and Verifiable Mathematical Problem Generation
- Title(参考訳): ReverseMath: スケーラブルで検証可能な数学的問題生成のための解法
- Authors: Raoyuan Zhao, Yihong Liu, Yupei Du, Hinrich Schütze, Michael A. Hedderich,
- Abstract要約: ReverseMathは,解の反転によって新しい数学問題を生成する手法である。
トレーニングのために、ReverseMathは、強化学習のためのデータ拡張として、自動的にラベル付けされた逆問題を提供します。
実験により、ReverseMath生成データを含むと、複数のベンチマークで数学的推論性能が向上することが示された。
- 参考スコア(独自算出の注目度): 49.267054319001346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mathematical reasoning benchmarks are vital for evaluating large language models (LLMs), but many are static and repeatedly exposed through public evaluation and training pipelines, making it difficult to separate genuine reasoning from memorization. Meanwhile, manually constructing new math problems with reliable answers remains costly. We introduce ReverseMath, a scalable method for generating new math problems through answer inversion. Given a problem and its answer, ReverseMath masks a numerical value in the original problem, treats the original answer as a known condition, and rewrites the problem so that the masked value becomes the new answer. The generated problem reverses the original input-output relation, making its answer known by construction. We study ReverseMath for both evaluation and training. For evaluation, paired original/reversed problems reveal substantial behavioral shifts: models sometimes fail on reversed problems and even incorrectly output the original answer, suggesting memorization-like behavior. For training, ReverseMath provides automatically labeled reversed problems as data augmentation for reinforcement learning (RL). Experiments show that including ReverseMath-generated data improves mathematical reasoning performance across multiple benchmarks, demonstrating its value as both an analysis tool and a scalable source of verifiable training data.
- Abstract(参考訳): 数学的推論ベンチマークは大規模言語モデル(LLM)を評価する上で不可欠であるが、多くは静的であり、公開評価とトレーニングパイプラインを通じて繰り返し公開されるため、真の推論と暗記を区別することは困難である。
一方、信頼性の高い解で新しい数学の問題を手作業で構築する作業は、依然としてコストがかかる。
リバースマス(ReverseMath)は,解の反転によって新しい数学問題を生成するスケーラブルな方法である。
問題とその解が与えられた後、ReverseMathは元の問題の数値をマスクし、元の解を既知の条件として扱い、マスク値が新しい解となるように問題を書き換える。
生成された問題は元の入出力関係を逆転させ、その答えは構築によって知られる。
評価とトレーニングの両面でReverseMathについて検討する。
モデルはしばしば逆問題で失敗し、元の答えを誤って出力し、暗記のような振る舞いを示唆する。
トレーニングのために、ReverseMathは、強化学習(RL)のためのデータ拡張として、自動的にラベル付けされた逆問題を提供する。
実験によると、ReverseMathの生成したデータを含むと、複数のベンチマークで数学的推論性能が向上し、分析ツールと検証可能なトレーニングデータのスケーラブルなソースとしての価値が証明される。
関連論文リスト
- MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning [20.82742383613536]
マルチモーダル大言語モデル (MLLM) は視覚言語対応タスクにおいて顕著な機能を示した。
これまでの研究は、特殊な数学的データセットの微調整に重点を置いてきた。
メソッドは推論、リフレクション、報酬に基づくフィードバックのサイクルを通じてモデルを反復的に洗練する。
MathVL-testの結果は、主要なオープンソースマルチモーダル数学的推論モデルQVQを上回った。
論文 参考訳(メタデータ) (2025-11-10T07:46:19Z) - Self-Questioning Language Models [58.73276539661649]
本稿では,提案者がトピックを与えられ,解答者に対する質問を生成する非対称なセルフプレイフレームワークを提案する。
提案者と解答者はともに強化学習を通じて訓練される。
3桁の乗算、OMEGAベンチマークの代数問題、Codeforcesのプログラミング問題である。
論文 参考訳(メタデータ) (2025-08-05T17:51:33Z) - Let's Verify Math Questions Step by Step [29.69769942300042]
MathQ-Verifyは、未定または未定の数学問題を厳格にフィルタリングするために設計された、新しいパイプラインである。
MathQ-Verifyはまず、冗長な命令を削除するためのフォーマットレベルのバリデーションを実行する。
その後、各質問を形式化し、それを原子状態に分解し、数学的定義に対して検証する。
論文 参考訳(メタデータ) (2025-05-20T04:07:29Z) - StepMathAgent: A Step-Wise Agent for Evaluating Mathematical Processes through Tree-of-Error [60.82371607870152]
本稿では,StepMathAgentと呼ばれる,エラーのツリーに基づく新しい数学的プロセス評価エージェントを提案する。
StepMathAgentには、論理ステップセグメンテーション、ステップスコア、スコアアグリゲーション、エラーツリー生成の4つの内部コア操作と、4つの外部拡張モジュールが含まれている。
StepMathBenchの実験では、提案したStepMathAgentは最先端の手法よりも優れており、様々なシナリオに適用可能であることが示されている。
論文 参考訳(メタデータ) (2025-03-13T07:02:53Z) - ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。
モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。
提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文 参考訳(メタデータ) (2024-10-24T18:02:37Z) - Application of machine learning regression models to inverse eigenvalue
problems [0.0]
機械学習の観点から逆固有値問題の数値解について検討する。
対称ポテンシャルの逆ストラム・リウヴィル固有値問題と球対称屈折率の逆透過固有値問題とがある。
論文 参考訳(メタデータ) (2022-12-08T14:15:01Z) - Tackling Math Word Problems with Fine-to-Coarse Abstracting and
Reasoning [22.127301797950572]
本稿では,局所的なきめ細かい情報と,その大域的な論理構造の両方を捉えるために,微粒な方法で数学語問題をモデル化することを提案する。
我々のモデルは局所的な変動に自然に敏感であり、目に見えない問題タイプにより良い一般化が可能である。
論文 参考訳(メタデータ) (2022-05-17T12:14:44Z) - Reverse Operation based Data Augmentation for Solving Math Word Problems [37.26159426631031]
最近のモデルはパフォーマンスボトルネックに達し、トレーニングのためにより高品質なデータを必要としている。
本稿では,数学用語問題の数学的論理を逆転する新しいデータ拡張法を提案する。
2つのSOTA数学単語問題解決モデルに拡張データを適用し、その結果を強力なデータ拡張ベースラインと比較する。
論文 参考訳(メタデータ) (2020-10-04T11:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。