論文の概要: Does Learning Mathematical Problem-Solving Generalize to Broader Reasoning?
- arxiv url: http://arxiv.org/abs/2507.04391v1
- Date: Sun, 06 Jul 2025 13:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.156562
- Title: Does Learning Mathematical Problem-Solving Generalize to Broader Reasoning?
- Title(参考訳): 数学的問題解決の学習はより広義の推論に一般化されるか?
- Authors: Ruochen Zhou, Minrui Xu, Shiqi Chen, Junteng Liu, Yunqi Li, Xinxin Lin, Zhengyu Chen, Junxian He,
- Abstract要約: 数学的問題解決の学習が、他の推論能力の発達にどのように貢献するかは、まだ分かっていない。
各種MPSトレーニング手法の一般化可能性に関する実証的研究を行った。
- 参考スコア(独自算出の注目度): 19.19679613712354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a growing interest in enhancing the mathematical problem-solving (MPS) capabilities of large language models. While the majority of research efforts concentrate on creating specialized models to solve mathematical problems, it remains unknown how learning mathematical problem-solving generalizes to help develop other reasoning abilities. In this paper, we present an empirical investigation into the generalization potential of various MPS training approaches, such as continual pretraining, instruction tuning, and rule-based reinforcement learning across various data sources, including both short and long chain-of-thought (CoT) samples. Evaluation on 5 mathematical and 8 general reasoning benchmarks show that continual pretraining on math text is able to generalize to general reasoning tasks to some extent. In constrast, instruction tuning on conventional, short MPS samples provides limited benefits and, in many cases, even impairs generalization performance. Notably, training with long CoT responses for MPS samples and incorporating rule-based reinforcement learning on MPS queries exhibit distinct behavior, significantly enhancing generalization by extending the model's reasoning processes into other domains. These results suggest that traditional approaches to learning MPS with short reasoning chains largely fail to achieve robust generalization. However, the emerging paradigm of longer reasoning chains, coupled with self-reflection, offers a promising direction for improving generalized reasoning abilities through learning from specialized domains.
- Abstract(参考訳): 大規模言語モデルの数学的問題解決(MPS)能力向上への関心が高まっている。
研究活動の大半は数学的な問題を解決するための専門モデルの作成に集中しているが、数学的問題解決の学習が、他の推論能力の発達にどのように役立つかは分かっていない。
本稿では,連続的な事前学習,指導指導,ルールに基づく強化学習など,様々なMPSトレーニング手法の一般化可能性に関する実証的研究を行う。
5つの数学的および8つの一般的な推論ベンチマークの評価は、数学テキストによる連続的な事前学習が一般的な推論タスクにある程度一般化できることを示している。
コンストラストでは、従来の短いMPSサンプルの命令チューニングは、限られた利点を提供し、多くの場合、一般化性能を損なう。
特に,MPSサンプルに対する長いCoT応答と規則に基づく強化学習をMPSクエリに取り入れたトレーニングは,異なる振る舞いを示し,モデルの推論プロセスを他のドメインに拡張することにより,一般化を著しく向上させる。
これらの結果は、短い推論連鎖を持つMPSを学習する従来のアプローチは、堅牢な一般化を達成できないことを示唆している。
しかし、より長い推論連鎖のパラダイムは、自己回帰と相まって、専門領域からの学習を通じて一般化推論能力を改善するための有望な方向性を提供する。
関連論文リスト
- OMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative Generalization [88.76091817642963]
最近の大規模言語モデル (LLMs) は、DeepSeek-R1-のような長い鎖の推論を持ち、オリンピアード級数学において印象的な成果を上げている。
本稿では,3つの分布外一般化の軸を評価するために設計された3つの一般化 Axes-a ベンチマークを用いた OMEGA-Out-of-distriion Math Problems Evaluation を提案する。
論文 参考訳(メタデータ) (2025-06-23T17:51:40Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Large Language and Reasoning Models are Shallow Disjunctive Reasoners [15.56445409535547]
大規模言語モデル(LLM)は、体系的な推論に苦慮している。
本稿では,定性的空間的および時間的推論のための体系的関係合成を必要とするタスクに焦点をあてる。
ゼロショット LRM はシングルパス推論タスクでは LLM よりも優れていますが,マルチパス設定では苦労しています。
論文 参考訳(メタデータ) (2025-03-30T15:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。