論文の概要: Mathematical Proof as a Litmus Test: Revealing Failure Modes of Advanced Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2506.17114v1
- Date: Fri, 20 Jun 2025 16:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.533213
- Title: Mathematical Proof as a Litmus Test: Revealing Failure Modes of Advanced Large Reasoning Models
- Title(参考訳): リトマス試験としての数学的証明--大規模推論モデルの失敗モードを明らかにする
- Authors: Dadi Guo, Jiayu Liu, Zhiyuan Fan, Zhitao He, Haoran Li, Yumeng Wang, Yi R., Fung,
- Abstract要約: RFMDataset(Reveal Failure Modes)は200種類の数学的証明問題の集合である。
先進モデルの性能を徹底的に評価する。
解析により,現在の大規模推論モデルの基本的制約を示す10種類のきめ細かい誤差型が明らかになった。
- 参考スコア(独自算出の注目度): 9.888722455163613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (e.g., R1, o3) have demonstrated remarkable mathematical problem-solving abilities. However, the high reported accuracy of these advanced models on popular datasets, reliance on purely numerical evaluation and potential benchmark leakage, often masks their true reasoning shortcomings. To address this, we propose leveraging the inherent rigor and methodological complexity of mathematical proofs as a diagnostic tool to expose these hidden failures. Specifically, we introduce the RFMDataset (Reveal Failure Modes), a collection of 200 diverse mathematical proof problems, and thoroughly evaluate advanced models' performance on it. Our in-depth analysis of their failures uncovers 10 fine-grained error types, which shows fundamental limitations in current large reasoning models: 1) large reasoning models grapple profoundly with mathematical proofs, with some generating entirely correct proofs for less than 20% of problems and failing even on basic ones; 2) models exhibit a diverse spectrum of reasoning failures, prominently demonstrating the lack of guarantees for the correctness and rigor of single-step reasoning; and 3) models show hallucination and incompleteness during the reasoning process. Our findings reveal that models' self-reflection is insufficient to resolve the current logical dilemmas, necessitating formalized and fine-grained logical training.
- Abstract(参考訳): 大きな推論モデル(例えば、R1, o3)は、驚くべき数学的問題解決能力を示している。
しかし、一般的なデータセット上のこれらの高度なモデルの精度の高さ、純粋に数値的な評価と潜在的なベンチマークリークに依存し、しばしば真の理由の欠点を隠蔽している。
そこで本研究では, 数学的証明の厳密さと方法論的複雑さを診断ツールとして活用し, 隠れた欠陥を明らかにすることを提案する。
具体的には,200種類の数学的証明問題の集合であるRAMDataset(Reveal Failure Modes)を導入し,その上で高度なモデルの性能を徹底的に評価する。
私たちの詳細な分析では、現在の大規模推論モデルの基本的制約を示す10のきめ細かいエラータイプが明らかになった。
1) 大きな推論モデルは,数学的な証明と深く結びついており,一部は,20%未満の問題に対して完全に正しい証明を生成し,基本的問題においても失敗する。
2 モデルは、多種多様な推論失敗のスペクトルを示し、一段階推論の正確性及び厳格性の保証の欠如を顕著に示す。
3) モデルは推論過程において幻覚と不完全性を示す。
以上の結果から,モデルの自己回帰は現在の論理ジレンマを解消するには不十分であることが判明した。
関連論文リスト
- CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Reasoning Model is Stubborn: Diagnosing Instruction Overriding in Reasoning Models [27.437685534830457]
大規模言語モデルはよく知られた推論パターンに依存している。
ユーザーからの明確な指示にもかかわらず、これらのモデルはしばしば明確に述べられた条件をオーバーライドし、習慣的推論の軌跡をデフォルトにしている。
この振る舞いは、特に数学や論理パズルのような分野において重要な課題を呈している。
論文 参考訳(メタデータ) (2025-05-22T19:00:01Z) - Evaluating the Logical Reasoning Abilities of Large Reasoning Models [15.009205651973666]
大規模な推論モデルにおける論理的推論を評価するためのベンチマークであるLogiEvalを紹介する。
LogiEvalは様々な推論タイプ(帰納的、帰納的、類推的、帰納的)とタスク形式(論理的シーケンス、引数解析など)にまたがる。
実験により,現代の推論モデルでは,4選択の議論解析問題や類似推論において,人間の性能を上回っていることがわかった。
解析の結果,人為的性能はモデル故障分布を反映しないことがわかった。
論文 参考訳(メタデータ) (2025-05-17T05:36:14Z) - THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models [65.39456695678713]
本稿では,問題レベルの難易度を近似的に測定し,問題の難易度と最適なトークン使用量との間に明確な関係があることを実証する。
一般に、推論モデルは、特に簡単な問題に対して、キャリブレーションが不十分である。
トレーニング不要なブラックボックス復号法であるTHOUGHTTERMINATORを導入する。
論文 参考訳(メタデータ) (2025-04-17T22:16:30Z) - Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad [0.8030359871216614]
我々は2025年のUSAMOの6つの問題に対して、最先端の推論モデルを評価する。
Gemini-2.5-Proのみが25%という非自明なスコアを達成している。
以上の結果から,現在のLLMは厳密な数学的推論作業には不十分であることが示唆された。
論文 参考訳(メタデータ) (2025-03-27T19:21:05Z) - Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Lean-STaR: Learning to Interleave Thinking and Proving [53.923617816215774]
証明の各ステップに先立って,非公式な思考を生成するために,言語モデルをトレーニングするフレームワークであるLean-STaRを紹介します。
Lean-STaRは、Lean定理証明環境内のminiF2F-testベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T01:43:07Z) - MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure [129.8481568648651]
複雑な実生活シナリオにおけるモデルの論理的推論能力を調べるためのベンチマークを提案する。
推論のマルチホップ連鎖に基づいて、説明形式は3つの主成分を含む。
この新たな説明形式を用いて,現在のベストモデルの性能を評価した。
論文 参考訳(メタデータ) (2022-10-22T16:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。