Fugu-MT 論文翻訳(概要): GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers

論文の概要: GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers

arxiv url: http://arxiv.org/abs/2402.19255v1
Date: Thu, 29 Feb 2024 15:26:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 14:26:15.289550
Title: GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers
Title（参考訳）: GSM-Plus:数学的問題解としてのLCMのロバスト性評価のための総合ベンチマーク
Authors: Qintong Li and Leyang Cui and Xueliang Zhao and Lingpeng Kong and Wei Bi
Abstract要約: 大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
参考スコア（独自算出の注目度）: 73.78371810664319
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have achieved impressive performance across various mathematical reasoning benchmarks. However, there are increasing debates regarding whether these models truly understand and apply mathematical knowledge or merely rely on shortcuts for mathematical reasoning. One essential and frequently occurring evidence is that when the math questions are slightly changed, LLMs can behave incorrectly. This motivates us to evaluate the robustness of LLMs' math reasoning capability by testing a wide range of question variations. We introduce the adversarial grade school math (\datasetname) dataset, an extension of GSM8K augmented with various mathematical perturbations. Our experiments on 25 LLMs and 4 prompting techniques show that while LLMs exhibit different levels of math reasoning abilities, their performances are far from robust. In particular, even for problems that have been solved in GSM8K, LLMs can make mistakes when new statements are added or the question targets are altered. We also explore whether more robust performance can be achieved by composing existing prompting methods, in which we try an iterative method that generates and verifies each intermediate thought based on its reasoning goal and calculation result. Code and data are available at \url{https://github.com/qtli/GSM-Plus}.
Abstract（参考訳）: 大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成した。しかし、これらのモデルが数学的知識を真に理解し、適用するか、単に数学的推論のショートカットに頼るかという議論が増えている。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。本稿では,GSM8Kの拡張として,様々な数学的摂動を付加した逆数次数学(\datasetname)データセットを提案する。 25個のLLMと4個のプロンプト技術を用いた実験により, LLMは数学推論能力のレベルが異なるが, その性能はそれほど堅牢ではないことがわかった。特に、GSM8Kで解決された問題であっても、LLMは新たなステートメントを追加したり、質問対象を変更したりする際に間違いを犯す可能性がある。また,推論目標と計算結果に基づいて,各中間思考を生成し検証する反復的手法を試し,既存のプロンプト手法を構成すれば,よりロバストな性能を実現することができるかを検討する。コードとデータは \url{https://github.com/qtli/gsm-plus} で入手できる。

関連論文リスト

MathConstruct: Challenging LLM Reasoning with Constructive Proofs [0.9320657506524149]
mcは、様々な数学コンペから得られた126の課題の新しいベンチマークである。 mcは、解の正確性を容易に検証できるため、大規模言語モデルの評価に適している。
論文参考訳（メタデータ） (2025-02-14T14:44:22Z)
HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。 HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文参考訳（メタデータ） (2024-10-13T20:09:41Z)
Give me a hint: Can LLMs take a hint to solve math problems? [0.5742190785269342]
本稿では,先進的な数学的問題に対する言語モデルの性能向上のための"ヒント"を提案する。また、敵のヒントに対する堅牢性をテストし、それらに対する感受性を示す。
論文参考訳（メタデータ） (2024-10-08T11:09:31Z)
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文参考訳（メタデータ） (2024-10-07T02:30:07Z)
Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。既存の数式語問題に対して,それらの性能を併用して評価する。
論文参考訳（メタデータ） (2024-10-02T17:01:10Z)
MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。 MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文参考訳（メタデータ） (2024-05-20T17:52:29Z)
Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。 CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文参考訳（メタデータ） (2024-04-23T12:16:05Z)
Can LLMs Master Math? Investigating Large Language Models on Math Stack Exchange [25.419977967846144]
大規模言語モデル(LLM)は、様々な自然言語タスクにおいて例外的な機能を示した。本稿では、複雑な数学的問題解決をナビゲートする上でのLLMの限界について考察する。
論文参考訳（メタデータ） (2024-03-30T12:48:31Z)
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文参考訳（メタデータ） (2024-03-21T17:59:50Z)
MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。 MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文参考訳（メタデータ） (2023-03-04T04:43:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。