論文の概要: From Blind Solvers to Logical Thinkers: Benchmarking LLMs' Logical Integrity on Faulty Mathematical Problems
- arxiv url: http://arxiv.org/abs/2410.18921v1
- Date: Thu, 24 Oct 2024 17:10:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:51:18.549388
- Title: From Blind Solvers to Logical Thinkers: Benchmarking LLMs' Logical Integrity on Faulty Mathematical Problems
- Title(参考訳): ブラインド・ソルバーから論理的思考へ:LLMの論理的整合性と故障数学的問題とのベンチマーク
- Authors: A M Muntasir Rahman, Junyi Ye, Wei Yao, Wenpeng Yin, Guiling Wang,
- Abstract要約: 本稿では,豊富な多様性の数学問題を含むベンチマークデータセットであるFactyMathを提案する。
我々は、オープンソース、クローズドソース、数学特化モデルを含む幅広いモデルについて評価する。
- 参考スコア(独自算出の注目度): 9.504390967621507
- License:
- Abstract: Consider the math problem: "Lily received 3 cookies from her best friend yesterday and ate 5 for breakfast. Today, her friend gave her 3 more cookies. How many cookies does Lily have now?" Many large language models (LLMs) in previous research approach this problem by calculating the answer "1" using the equation "3 - 5 + 3." However, from a human perspective, we recognize the inherent flaw in this problem: Lily cannot eat 5 cookies if she initially only had 3. This discrepancy prompts a key question: Are current LLMs merely Blind Solver that apply mathematical operations without deeper reasoning, or can they function as Logical Thinker capable of identifying logical inconsistencies? To explore this question, we propose a benchmark dataset, FaultyMath, which includes faulty math problems of rich diversity: i) multiple mathematical categories, e.g., algebra, geometry, number theory, etc., ii) varying levels of difficulty, and iii) different origins of faultiness -- ranging from violations of common sense and ambiguous statements to mathematical contradictions and more. We evaluate a broad spectrum of LLMs, including open-source, closed-source, and math-specialized models, using FaultyMath across three dimensions: (i) How accurately can the models detect faulty math problems without being explicitly prompted to do so? (ii) When provided with hints -- either correct or misleading -- about the validity of the problems, to what extent do LLMs adapt to become reliable Logical Thinker? (iii) How trustworthy are the explanations generated by LLMs when they recognize a math problem as flawed? Through extensive experimentation and detailed analysis, our results demonstrate that existing LLMs largely function as Blind Solver and fall short of the reasoning capabilities required to perform as Logical Thinker.
- Abstract(参考訳): リリーは昨日、親友から3つのクッキーを受け取り、朝食に5つのクッキーを食べました。今日、彼女の友人は3つのクッキーを与えました。現在、リリーのクッキーはいくつありますか?」。
従来の研究における多くの大きな言語モデル (LLM) は、方程式 "3 - 5 + 3" を用いて答え "1" を計算することでこの問題にアプローチする。
しかし、人間の視点では、この問題の本質的な欠陥を認識している。Lilyは、当初3.5%しか持っていなかったら、5つのクッキーを食べることはできない。
現在のLLMは、より深い推論なしに数学的操作を適用する単に盲点ソルバーなのか、それとも論理的矛盾を識別できる論理的思考者として機能するのか?
この問題を探索するために、豊富な多様性の数学問題を含むベンチマークデータセットであるFactyMathを提案する。
一 複数の数学カテゴリー、eg、代数、幾何学、数論等
二 様々な難易度及び難易度
三 欠点の出所...常識の違反、曖昧な言明、数学的矛盾等。
我々は3次元のFaultyMathを用いて、オープンソース、クローズドソース、数学特化モデルを含むLLMの幅広いスペクトルを評価する。
(i)モデルが明示的に指示されることなく、どの程度正確に欠陥数学の問題を検出することができるか。
二 問題の有効性についてのヒント(正しいもの又は誤解を招くもの)を設けたときは、LCMはどの程度信頼性のある論理的思考者となるか。
三 数学上の問題に欠陥があると認めるとき、LCMが生み出す説明はどの程度信頼できるか。
実験と詳細な分析により,既存のLSMはBlind Solverとして機能し,論理的思考器として行うために必要な推論能力に欠けることが示された。
関連論文リスト
- Do Large Language Models Truly Grasp Mathematics? An Empirical Exploration From Cognitive Psychology [13.964263002704582]
提案手法は,Chains of Thoughtプロンプトを用いても,修正されたCRT問題を解く際の誤り率が高いことを示す。
具体的には、従来の質問と比べて平均精度が最大50%低下した。
この発見は、LLMが人間に匹敵する真の数学的推論能力を持っているという信念に挑戦する。
論文 参考訳(メタデータ) (2024-10-19T05:01:56Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Large Language Models Are Unconscious of Unreasonability in Math Problems [28.534372555982856]
本研究では,不合理な数学問題に直面した大規模言語モデル(LLM)の挙動について検討する。
実験により、LLMは不合理な誤りを検出することができるが、それでも非幻覚的コンテンツを生成するのに失敗することが示された。
論文 参考訳(メタデータ) (2024-03-28T12:04:28Z) - Logic Query of Thoughts: Guiding Large Language Models to Answer Complex Logic Queries with Knowledge Graphs [102.37496443389203]
LGOT(Logic-Query-of-Thoughts)は知識グラフ推論と大規模言語モデルを組み合わせた最初の方法である。
実験の結果,ChatGPTよりも20%向上した。
論文 参考訳(メタデータ) (2024-03-17T17:01:45Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial
Reasoning Problems? [27.696027301600793]
本稿では,31の課題のデータセットであるPuzzleBenchについて紹介する。
これらの問題は、すべて第一次、すなわち、様々な大きさの問題のインスタンスでインスタンス化でき、そのほとんどはNPハードである。
まず,LLMがシンボリック・ソルバによって支援されても,データセット上ではかなり低性能であることを示す。
そこで本研究では,LLMとシンボルソルバとインタプリタを組み合わせた新しいアプローチであるPuzzle-LMを提案する。
論文 参考訳(メタデータ) (2024-02-04T20:56:09Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - Novice Learner and Expert Tutor: Evaluating Math Reasoning Abilities of
Large Language Models with Misconceptions [28.759189115877028]
本稿では,Large Language Models (LLM) の数学的推論能力の数学的誤解に基づく新しい評価法を提案する。
我々の第一のアプローチは、初等学習者および専門教師としてLLMをシミュレートすることであり、特定の誤解から生じる数学問題に対する誤った回答を特定することを目的としている。
論文 参考訳(メタデータ) (2023-10-03T21:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。