論文の概要: Large Language Models Struggle with Unreasonability in Math Problems
- arxiv url: http://arxiv.org/abs/2403.19346v6
- Date: Sun, 01 Jun 2025 15:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 20:53:52.798409
- Title: Large Language Models Struggle with Unreasonability in Math Problems
- Title(参考訳): 数学問題における不合理性を考慮した大規模言語モデル
- Authors: Jingyuan Ma, Damai Dai, Zihang Yuan, Rui li, Weilin Luo, Bin Wang, Qun Liu, Lei Sha, Zhifang Sui,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い数学と推論のベンチマークで顕著な成功を収めている。
我々は、不合理な数学問題に直面した時にしばしば苦労するのを観察する。
我々は,不合理な数学問題文を検出し,応答するLLMの能力を評価するために,textbfUnreasonable Math Problems (UMP)ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 41.970853209666224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown remarkable success on a wide range of math and reasoning benchmarks. However, we observe that they often struggle when faced with unreasonable math problems. Instead of recognizing these issues, models frequently proceed as if the problem is well-posed, producing incorrect answers or falling into overthinking and verbose self-correction. To systematically investigate this overlooked vulnerability, we propose the \textbf{Unreasonable Math Problems (UMP)} benchmark, designed to evaluate LLMs' ability to detect and respond to unreasonable math problem statements. Based on extensive experiments covering 19 LLMs, we find that even state-of-the-art general models like GPT-4o achieve only a score of 0.6 on UMP. While reasoning models such as DeepSeek-R1 demonstrate a higher sensitivity to unreasonable inputs, this often comes at the cost of generating overly long and meaningless responses that fail to converge. We further explore prompting and fine-tuning methods, which offer partial improvements but also introduce trade-offs, shedding light on both the potential and limitations of LLMs in this challenging setting.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い数学と推論のベンチマークで顕著な成功を収めている。
しかし、不合理な数学問題に直面した場合には、しばしば苦労する。
これらの問題を認識する代わりに、モデルはしばしば、問題がうまく提示されているかのように進行し、誤った答えを生み出したり、過度に考え直したり、冗長な自己訂正に陥る。
この脆弱性を体系的に調査するために,不合理な数学問題文を検知・応答するLLMの能力を評価するために, UMP(textbf{Unreasonable Math Problems)ベンチマークを提案する。
19個のLLMに関する広範な実験に基づいて、GPT-4oのような最先端の一般モデルでさえ、UMPの0.6しか達成できないことがわかった。
DeepSeek-R1のような推論モデルは不合理な入力に対して高い感度を示すが、これは収束しない過度に長く無意味な応答を生成するコストがかかる。
さらに、部分的な改善を提供するとともに、トレードオフを導入し、この挑戦的な環境でのLLMの可能性と限界の両方に光を当てる、プロンプトと微調整の手法についても検討する。
関連論文リスト
- MathConstruct: Challenging LLM Reasoning with Constructive Proofs [0.9320657506524149]
mcは、様々な数学コンペから得られた126の課題の新しいベンチマークである。
mcは、解の正確性を容易に検証できるため、大規模言語モデルの評価に適している。
論文 参考訳(メタデータ) (2025-02-14T14:44:22Z) - Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology [13.964263002704582]
提案手法は,Chains of Thoughtプロンプトを用いても,修正されたCRT問題を解く際の誤り率が高いことを示す。
具体的には、従来の質問と比べて平均精度が最大50%低下した。
この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。
論文 参考訳(メタデータ) (2024-10-19T05:01:56Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Adversarial Math Word Problem Generation [6.92510069380188]
大規模言語モデル(LLM)の公平な評価を保証するための新しいパラダイムを提案する。
評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。
我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
論文 参考訳(メタデータ) (2024-02-27T22:07:52Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Decoding Logic Errors: A Comparative Study on Bug Detection by Students
and Large Language Models [5.162225137921625]
大規模言語モデル(LLM)は、最近、様々な計算タスクにおいて驚くべきパフォーマンスを示した。
GPT-3 と GPT-4 の2つの LLM の性能について検討した。
論文 参考訳(メタデータ) (2023-11-27T17:28:33Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step
Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。
我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文 参考訳(メタデータ) (2023-08-01T10:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。