Fugu-MT 論文翻訳(概要): Large Language Models Are Struggle to Cope with Unreasonability in Math Problems

論文の概要: Large Language Models Are Struggle to Cope with Unreasonability in Math Problems

arxiv url: http://arxiv.org/abs/2403.19346v5
Date: Fri, 09 May 2025 15:06:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-12 12:48:53.948874
Title: Large Language Models Are Struggle to Cope with Unreasonability in Math Problems
Title（参考訳）: 数学問題における不合理性に対処する大規模言語モデル
Authors: Jingyuan Ma, Damai Dai, Zihang Yuan, Rui li, Weilin Luo, Bin Wang, Qun Liu, Lei Sha, Zhifang Sui,
Abstract要約: 本研究では,LLMが数学問題において不合理性を認識し,応答する能力を評価するために,新しいベンチマークUnreasonable Math Problem (UMP)を提案する。 GPT-4oのような最先端モデルでさえ、UMPの0.6の限られた性能しか達成していないのに対し、DeepSeek-R1のような推論モデルは、過度に考え、不安定になる傾向にある。
参考スコア（独自算出の注目度）: 41.970853209666224
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent research have demonstrated LLMs' impressive performance in math and reasoning. However, the capacity of LLMs to address math problems under unconventional conditions, such as internal inconsistencies and flawed assumptions, remains largely unexplored. In this paper, we propose a novel benchmark Unreasonable Math Problem (UMP) designed to assess LLMs' ability to recognize and respond to unreasonability in math problem. The benchmark consists of a carefully curated collection of unreasonable math questions across diverse types. Based on extensive experiments covering 19 LLMs, we observe that even state-of-the-art models such as GPT-4o achieve only limited performance of 0.6 in UMP, while reasoning models such as DeepSeek-R1 are prone to overthinking and unstable. We further explore strategies for improving the recognition of unreasonable inputs, shedding light on both the possibility and limitations of LLMs in this challenging setting.
Abstract（参考訳）: 最近の研究は、LLMの数学と推論における印象的な性能を実証している。しかし、内部の不整合や欠点のある仮定など、従来とは異なる条件下での数学問題に対処するLLMの能力は、いまだに未解明のままである。本稿では,LLMの数学問題における不合理性を認識し,応答する能力を評価するために,新しいベンチマークUnreasonable Math Problem (UMP)を提案する。このベンチマークは、さまざまな種類の不合理な数学の質問を慎重に収集したものだ。 GPT-4oのような最先端モデルでさえ、UMPの0.6しか達成できないのに対し、DeepSeek-R1のような推論モデルは過度に考え直し不安定になる。我々はさらに、不合理な入力の認識を改善するための戦略を探求し、この挑戦的な環境でのLLMの可能性と限界の両方に光を当てる。

関連論文リスト

Frontier LLMs Still Struggle with Simple Reasoning Tasks [53.497499123166804]
この研究は、フロンティア言語モデルの性能を、幅広い「容易」推論問題に対して研究する。計算,一階述語論理,証明木,旅行計画など,手続き的に生成された単純な推論タスクのスイートを作成します。最先端の思考モデルでさえ、このような問題や同様の理由で一貫して失敗することを示します。
論文参考訳（メタデータ） (2025-07-09T22:22:49Z)
Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文参考訳（メタデータ） (2025-02-17T09:07:32Z)
MathConstruct: Challenging LLM Reasoning with Constructive Proofs [0.9320657506524149]
mcは、様々な数学コンペから得られた126の課題の新しいベンチマークである。 mcは、解の正確性を容易に検証できるため、大規模言語モデルの評価に適している。
論文参考訳（メタデータ） (2025-02-14T14:44:22Z)
Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology [13.964263002704582]
提案手法は,Chains of Thoughtプロンプトを用いても,修正されたCRT問題を解く際の誤り率が高いことを示す。具体的には、従来の質問と比べて平均精度が最大50%低下した。この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。
論文参考訳（メタデータ） (2024-10-19T05:01:56Z)
HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。 HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文参考訳（メタデータ） (2024-10-13T20:09:41Z)
Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。既存の数式語問題に対して,それらの性能を併用して評価する。
論文参考訳（メタデータ） (2024-10-02T17:01:10Z)
Solving for X and Beyond: Can Large Language Models Solve Complex Math Problems with More-Than-Two Unknowns? [57.80779199039929]
大規模言語モデル (LLM) は数学問題の解法において顕著な性能を示した。本稿では,複数の未知の問題を組み込むことで,これらの制約に対処する新しいベンチマークであるBeyondXを紹介する。 BeyondXに関する実証的な研究によると、数学のタスクに特化して調整された既存のLLMの性能は、未知の数が増えるにつれて著しく低下する。
論文参考訳（メタデータ） (2024-07-06T17:01:04Z)
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。 CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文参考訳（メタデータ） (2024-04-23T12:16:05Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Adversarial Math Word Problem Generation [6.92510069380188]
大規模言語モデル(LLM)の公平な評価を保証するための新しいパラダイムを提案する。評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
論文参考訳（メタデータ） (2024-02-27T22:07:52Z)
The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。 LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文参考訳（メタデータ） (2024-01-01T14:02:27Z)
Decoding Logic Errors: A Comparative Study on Bug Detection by Students and Large Language Models [5.162225137921625]
大規模言語モデル(LLM)は、最近、様々な計算タスクにおいて驚くべきパフォーマンスを示した。 GPT-3 と GPT-4 の2つの LLM の性能について検討した。
論文参考訳（メタデータ） (2023-11-27T17:28:33Z)
Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文参考訳（メタデータ） (2023-10-31T17:52:22Z)
SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文参考訳（メタデータ） (2023-08-01T10:31:36Z)
Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models [23.344490944210456]
515Benchは,大規模言語モデル(LLM)の問題解決能力を評価するための,より困難なベンチマークデータセットである。高度に競争力のあるIIT-Advanced試験から, 数学, 物理, 化学の課題を解き明かす。さまざまなオープンソースおよびプロプライエタリなモデルに対する評価から,自己整合性や自己抑制性,チェーン・オブ・フォアリングといったテクニックを使用したとしても,最高のパフォーマンスは40%未満であることが分かる。
論文参考訳（メタデータ） (2023-05-24T11:55:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。