論文の概要: Can Large Reasoning Models Improve Accuracy on Mathematical Tasks Using Flawed Thinking?
- arxiv url: http://arxiv.org/abs/2512.17079v1
- Date: Thu, 18 Dec 2025 21:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.17713
- Title: Can Large Reasoning Models Improve Accuracy on Mathematical Tasks Using Flawed Thinking?
- Title(参考訳): 大規模推論モデルにより数学的タスクの精度は向上できるか?
- Authors: Saraswathy Amjith, Mihika Dusad, Neha Muramalla, Shweta Shah,
- Abstract要約: 思考の連鎖(CoT)の促進は、大きな言語モデルにおける数学的推論の中心となっている。
故意に欠陥のある推論トレースのトレーニングが、そのようなエラーを検出して回復するモデルを教えることができるかどうかを考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought (CoT) prompting has become central to mathematical reasoning in large language models, yet models remain brittle to early errors: a single arithmetic slip or unjustified inference typically propagates uncorrected to an incorrect final answer. We investigate whether training on intentionally flawed reasoning traces can teach models to detect and recover from such errors without degrading standard problem-solving ability. Using competition-level problems from MATH-lighteval, we generate CoT prefixes containing exactly one controlled error, either a calculation error (sign flips, dropped terms) or a reasoning error (misapplied rules, unjustified logical steps), and fine-tune Qwen3-4B with GRPO using a binary final-answer reward. Our Mixed-CoT-RL model matches standard RL on clean problems (41% vs 41%) while substantially outperforming it on problems prefilled with flawed reasoning (24% vs 19%). Notably, clean-only RL fine-tuning degrades robustness below the untuned baseline 19% vs. 20%), indicating that conventional training increases susceptibility to misleading prefills. Among error types, training on reasoning errors yields greater robustness gains than calculation errors alone, with mixed training performing best. These findings demonstrate that exposure to flawed traces during training can improve error-recovery behavior without sacrificing accuracy, suggesting a path toward more robust mathematical reasoning in LLMs.
- Abstract(参考訳): チェーン・オブ・シント(CoT)の促進は、大きな言語モデルにおける数学的推論の中心となっているが、モデルは早期の誤りに弱いままである。
本研究では,意図的欠陥のある推論トレースのトレーニングが,標準的な問題解決能力の低下を伴わずに,そのようなエラーを検出して回復するモデルを教えることができるかどうかを考察する。
MATH-lightevalの競合レベル問題を用いて、計算誤差(符号フリップ、ドロップ項)と推論誤差(不正な規則、不正な論理ステップ)のどちらかを正確に制御した1つのエラーを含むCoTプレフィックスを生成し、二項のファイナルアンサー報酬を用いたGRPOを用いた微調整Qwen3-4Bを生成する。
我々のMixed-CoT-RLモデルは、清潔な問題(41%対41%)で標準RLと一致し、欠点のある推論(24%対19%)で満たされた問題では大幅に上回った。
特に、清浄なRL微調整は、未調整のベースラインの19% vs. 20%以下で頑健さを低下させ、従来のトレーニングは、誤ったプレフィルの感受性を高めることを示唆している。
エラータイプの中では、推論エラーのトレーニングは、計算エラー単独よりも堅牢性が向上し、混合トレーニングが最善である。
これらの結果から,LLMの数学的推論において,精度を犠牲にすることなく,誤り回復行動を改善することが可能であることが示唆された。
関連論文リスト
- Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments [5.5855749614100825]
本稿では,複数の事前学習モデルを活用することで,このリコール低減を緩和できるという仮説を述べる。
我々は,一貫性に基づく推論問題として,様々なモデルからの矛盾する予測を特定し,管理することの課題を定式化する。
本研究は,複数の不完全なモデルから得られた知識を,難易度の高い新しいシナリオにおいて堅牢に統合するための効果的なメカニズムとして,一貫性に基づく誘拐の有効性を検証するものである。
論文 参考訳(メタデータ) (2025-05-25T23:17:47Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Rethinking Early Stopping: Refine, Then Calibrate [49.966899634962374]
キャリブレーション・リファインメント分解の新規な変分定式化について述べる。
我々は,校正誤差と精錬誤差が訓練中に同時に最小化されないという理論的,実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-01-31T15:03:54Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。