論文の概要: GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers
- arxiv url: http://arxiv.org/abs/2402.19255v1
- Date: Thu, 29 Feb 2024 15:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:26:15.289550
- Title: GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers
- Title(参考訳): GSM-Plus:数学的問題解としてのLCMのロバスト性評価のための総合ベンチマーク
- Authors: Qintong Li and Leyang Cui and Xueliang Zhao and Lingpeng Kong and Wei
Bi
- Abstract要約: 大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
- 参考スコア(独自算出の注目度): 73.78371810664319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved impressive performance across
various mathematical reasoning benchmarks. However, there are increasing
debates regarding whether these models truly understand and apply mathematical
knowledge or merely rely on shortcuts for mathematical reasoning. One essential
and frequently occurring evidence is that when the math questions are slightly
changed, LLMs can behave incorrectly. This motivates us to evaluate the
robustness of LLMs' math reasoning capability by testing a wide range of
question variations. We introduce the adversarial grade school math
(\datasetname) dataset, an extension of GSM8K augmented with various
mathematical perturbations. Our experiments on 25 LLMs and 4 prompting
techniques show that while LLMs exhibit different levels of math reasoning
abilities, their performances are far from robust. In particular, even for
problems that have been solved in GSM8K, LLMs can make mistakes when new
statements are added or the question targets are altered. We also explore
whether more robust performance can be achieved by composing existing prompting
methods, in which we try an iterative method that generates and verifies each
intermediate thought based on its reasoning goal and calculation result. Code
and data are available at \url{https://github.com/qtli/GSM-Plus}.
- Abstract(参考訳): 大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成した。
しかし、これらのモデルが数学的知識を真に理解し、適用するか、単に数学的推論のショートカットに頼るかという議論が増えている。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
本稿では,GSM8Kの拡張として,様々な数学的摂動を付加した逆数次数学(\datasetname)データセットを提案する。
25個のLLMと4個のプロンプト技術を用いた実験により, LLMは数学推論能力のレベルが異なるが, その性能はそれほど堅牢ではないことがわかった。
特に、GSM8Kで解決された問題であっても、LLMは新たなステートメントを追加したり、質問対象を変更したりする際に間違いを犯す可能性がある。
また,推論目標と計算結果に基づいて,各中間思考を生成し検証する反復的手法を試し,既存のプロンプト手法を構成すれば,よりロバストな性能を実現することができるかを検討する。
コードとデータは \url{https://github.com/qtli/gsm-plus} で入手できる。
関連論文リスト
- MathScale: Scaling Instruction Tuning for Mathematical Reasoning [70.89605383298331]
大規模言語モデル(LLM)は問題解決において顕著な能力を示した。
しかし、数学的な問題を解く能力は依然として不十分である。
高品質な数学的推論データを作成するためのシンプルでスケーラブルな方法であるMathScaleを提案する。
論文 参考訳(メタデータ) (2024-03-05T11:42:59Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable
Reasoning [99.8200914526817]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - CHAMP: A Competition-level Dataset for Fine-Grained Analyses of LLMs'
Mathematical Reasoning Capabilities [29.06174003306662]
概念とHint-Annotated Math Problems (CHAMP) は、高校数学の競争問題である。
このベンチマークは困難で、最高のモデルは標準設定で58.1%しか得点できない。
モデルはしばしば、間違った推論ステップを通じて、正しい最終回答に到達します。
論文 参考訳(メタデータ) (2024-01-13T03:18:16Z) - Language Models Understand Numbers, at Least Partially [32.45872420139116]
大規模言語モデル(LLM)は様々なタスクにおいて顕著な能力を示してきたが、その内部メカニズムは数学的な問題での使用を妨げる。
言語モデルが数学の基本要素である数を理解するかどうかを考察する。
予備的な研究は、LLMが数の部分的な理解を示し、将来のモデルの数学的能力に関する研究の洞察を提供することを示唆している。
論文 参考訳(メタデータ) (2024-01-08T08:54:22Z) - Fill in the Blank: Exploring and Enhancing LLM Capabilities for Backward
Reasoning in Math Word Problems [18.69394742883921]
後方推論は数学用語の問題では 比較的未発見です
4つのSOTA LLMにおける前方推論と比較して,後方推論におけるモデルの精度は著しく低下した。
PAL-Tools はプログラム支援 LLM のアイデアを組み合わせて,外部の解法で解ける方程式の集合を生成し, 作業確認は, 前方方向の精度の高い自然検証器の可用性を活用する。
論文 参考訳(メタデータ) (2023-10-03T12:03:06Z) - MathAttack: Attacking Large Language Models Towards Math Solving Ability [29.887497854000276]
本稿では,数学問題の解法におけるセキュリティの本質に近いMWPサンプルを攻撃するためのMathAttackモデルを提案する。
攻撃中は、元のMWPの数学的論理を保存することが不可欠である。
RobustMathと別の2つの数学ベンチマークGSM8KとMultiAirthデータセットの大規模な実験は、MathAttackがLLMの数学問題解決能力を効果的に攻撃できることを示している。
論文 参考訳(メタデータ) (2023-09-04T16:02:23Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。