論文の概要: Does Learning Mathematical Problem-Solving Generalize to Broader Reasoning?
- arxiv url: http://arxiv.org/abs/2507.04391v1
- Date: Sun, 06 Jul 2025 13:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.156562
- Title: Does Learning Mathematical Problem-Solving Generalize to Broader Reasoning?
- Title(参考訳): 数学的問題解決の学習はより広義の推論に一般化されるか?
- Authors: Ruochen Zhou, Minrui Xu, Shiqi Chen, Junteng Liu, Yunqi Li, Xinxin Lin, Zhengyu Chen, Junxian He,
- Abstract要約: 数学的問題解決の学習が、他の推論能力の発達にどのように貢献するかは、まだ分かっていない。
各種MPSトレーニング手法の一般化可能性に関する実証的研究を行った。
- 参考スコア(独自算出の注目度): 19.19679613712354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been a growing interest in enhancing the mathematical problem-solving (MPS) capabilities of large language models. While the majority of research efforts concentrate on creating specialized models to solve mathematical problems, it remains unknown how learning mathematical problem-solving generalizes to help develop other reasoning abilities. In this paper, we present an empirical investigation into the generalization potential of various MPS training approaches, such as continual pretraining, instruction tuning, and rule-based reinforcement learning across various data sources, including both short and long chain-of-thought (CoT) samples. Evaluation on 5 mathematical and 8 general reasoning benchmarks show that continual pretraining on math text is able to generalize to general reasoning tasks to some extent. In constrast, instruction tuning on conventional, short MPS samples provides limited benefits and, in many cases, even impairs generalization performance. Notably, training with long CoT responses for MPS samples and incorporating rule-based reinforcement learning on MPS queries exhibit distinct behavior, significantly enhancing generalization by extending the model's reasoning processes into other domains. These results suggest that traditional approaches to learning MPS with short reasoning chains largely fail to achieve robust generalization. However, the emerging paradigm of longer reasoning chains, coupled with self-reflection, offers a promising direction for improving generalized reasoning abilities through learning from specialized domains.
- Abstract(参考訳): 大規模言語モデルの数学的問題解決(MPS)能力向上への関心が高まっている。
研究活動の大半は数学的な問題を解決するための専門モデルの作成に集中しているが、数学的問題解決の学習が、他の推論能力の発達にどのように役立つかは分かっていない。
本稿では,連続的な事前学習,指導指導,ルールに基づく強化学習など,様々なMPSトレーニング手法の一般化可能性に関する実証的研究を行う。
5つの数学的および8つの一般的な推論ベンチマークの評価は、数学テキストによる連続的な事前学習が一般的な推論タスクにある程度一般化できることを示している。
コンストラストでは、従来の短いMPSサンプルの命令チューニングは、限られた利点を提供し、多くの場合、一般化性能を損なう。
特に,MPSサンプルに対する長いCoT応答と規則に基づく強化学習をMPSクエリに取り入れたトレーニングは,異なる振る舞いを示し,モデルの推論プロセスを他のドメインに拡張することにより,一般化を著しく向上させる。
これらの結果は、短い推論連鎖を持つMPSを学習する従来のアプローチは、堅牢な一般化を達成できないことを示唆している。
しかし、より長い推論連鎖のパラダイムは、自己回帰と相まって、専門領域からの学習を通じて一般化推論能力を改善するための有望な方向性を提供する。
関連論文リスト
- NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks [65.70224757972068]
本研究では,NaturalReasoningからの質問のプールに基づいて,強力な教師モデルから推論トレースを選択する。
データサイズをランダムサンプリングでスケールアップすることは、安定したパフォーマンス向上を伴う強力なベースラインであることに気付きました。
より多様な推論戦略を必要とする難しい事例を選択することは、教師モデルの推論スキルを伝達するよりサンプル効率が高いことが判明した。
論文 参考訳(メタデータ) (2025-07-02T17:30:24Z) - OMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative Generalization [88.76091817642963]
最近の大規模言語モデル (LLMs) は、DeepSeek-R1-のような長い鎖の推論を持ち、オリンピアード級数学において印象的な成果を上げている。
本稿では,3つの分布外一般化の軸を評価するために設計された3つの一般化 Axes-a ベンチマークを用いた OMEGA-Out-of-distriion Math Problems Evaluation を提案する。
論文 参考訳(メタデータ) (2025-06-23T17:51:40Z) - A Survey on Large Language Models for Mathematical Reasoning [13.627895103752783]
本研究では,大規模言語モデル(LLM)における数学的推論能力の発達について検討する。
我々は,教師付き微調整や強化学習などの微調整アプローチから,訓練不要なプロンプトまで,数学的推論を強化する手法をレビューする。
顕著な進歩にもかかわらず、キャパシティ、効率、一般化の点で根本的な課題は残る。
論文 参考訳(メタデータ) (2025-06-10T04:44:28Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - Large Language and Reasoning Models are Shallow Disjunctive Reasoners [15.56445409535547]
大規模言語モデル(LLM)は、体系的な推論に苦慮している。
本稿では,定性的空間的および時間的推論のための体系的関係合成を必要とするタスクに焦点をあてる。
ゼロショット LRM はシングルパス推論タスクでは LLM よりも優れていますが,マルチパス設定では苦労しています。
論文 参考訳(メタデータ) (2025-03-30T15:41:55Z) - Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - Conditions for Length Generalization in Learning Reasoning Skills [14.39250745903544]
本研究はマルコフ動的過程(MDP)や有向非巡回グラフ(DAG)として定式化できる推論タスクに焦点を当てる。
特定の表現における推論タスクに対して、長さ一般化問題を解くことができるかどうかを決定する条件を特定し、証明する。
論文 参考訳(メタデータ) (2023-11-22T03:36:18Z) - In Search of Robust Measures of Generalization [79.75709926309703]
我々は、一般化誤差、最適化誤差、過大なリスクのバウンダリを開発する。
経験的に評価すると、これらの境界の大部分は数値的に空白である。
我々は、分散ロバストネスの枠組みの中で、一般化対策を評価するべきであると論じる。
論文 参考訳(メタデータ) (2020-10-22T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。