Fugu-MT 論文翻訳(概要): GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

論文の概要: GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2410.05229v1
Date: Mon, 7 Oct 2024 17:36:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 20:07:08.384377
Title: GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
Title（参考訳）: GSM-シンボリック:大規模言語モデルにおける数学的推論の限界を理解する
Authors: Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar,
Abstract要約: GSM8Kベンチマークは、小学校レベルの質問に対するモデルの数学的推論を評価するために広く使われている。 GSM-Symbolicは、シンボリックテンプレートから生成された改良されたベンチマークである。以上の結果から,LLMは同一質問の異なるインスタンス化に応答する際,顕著なばらつきを示すことが明らかとなった。
参考スコア（独自算出の注目度）: 24.266973481633755
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in Large Language Models (LLMs) have sparked interest in their formal reasoning capabilities, particularly in mathematics. The GSM8K benchmark is widely used to assess the mathematical reasoning of models on grade-school-level questions. While the performance of LLMs on GSM8K has significantly improved in recent years, it remains unclear whether their mathematical reasoning capabilities have genuinely advanced, raising questions about the reliability of the reported metrics. To address these concerns, we conduct a large-scale study on several SOTA open and closed models. To overcome the limitations of existing evaluations, we introduce GSM-Symbolic, an improved benchmark created from symbolic templates that allow for the generation of a diverse set of questions. GSM-Symbolic enables more controllable evaluations, providing key insights and more reliable metrics for measuring the reasoning capabilities of models.Our findings reveal that LLMs exhibit noticeable variance when responding to different instantiations of the same question. Specifically, the performance of all models declines when only the numerical values in the question are altered in the GSM-Symbolic benchmark. Furthermore, we investigate the fragility of mathematical reasoning in these models and show that their performance significantly deteriorates as the number of clauses in a question increases. We hypothesize that this decline is because current LLMs cannot perform genuine logical reasoning; they replicate reasoning steps from their training data. Adding a single clause that seems relevant to the question causes significant performance drops (up to 65%) across all state-of-the-art models, even though the clause doesn't contribute to the reasoning chain needed for the final answer. Overall, our work offers a more nuanced understanding of LLMs' capabilities and limitations in mathematical reasoning.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、特に数学において、その形式的推論能力への関心を喚起している。 GSM8Kベンチマークは、小学校レベルの質問に対するモデルの数学的推論を評価するために広く使われている。 GSM8KにおけるLCMの性能は近年著しく改善されているが、その数学的推論能力が真に進歩したかどうかは不明であり、報告された指標の信頼性に関する疑問が提起されている。これらの問題に対処するため、我々はいくつかのSOTAオープンおよびクローズドモデルについて大規模な研究を行う。既存の評価の限界を克服するために,シンボルテンプレートから生成された改良されたベンチマークであるGSM-Symbolicを導入する。 GSM-Symbolicはより制御可能な評価を可能にし、モデルの推論能力を測定するための重要な洞察と信頼性の高い指標を提供する。具体的には、GSM-Symbolicベンチマークにおいて、問題の数値だけを変更すると、全てのモデルの性能が低下する。さらに,これらのモデルにおける数学的推論の脆弱性について検討し,質問の節数が増加するにつれてその性能が著しく低下することを示す。この減少は、現在のLLMが真の論理的推論を実行できないためであり、トレーニングデータから推論ステップを複製するためである、という仮説を立てる。問題に関連する1つの節を追加すると、最終回答に必要な推論チェーンに寄与しないにもかかわらず、すべての最先端モデルのパフォーマンスが大幅に低下する(最大65%)。全体として、我々の研究は数学的推論におけるLLMの能力と限界についてより微妙な理解を提供する。

関連論文リスト

General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文参考訳（メタデータ） (2025-05-20T17:41:33Z)
ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。 ExpliCa上で7つの商用およびオープンソース LLM をテストしました。驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文参考訳（メタデータ） (2025-02-21T14:23:14Z)
CounterBench: A Benchmark for Counterfactuals Reasoning in Large Language Models [5.409370027524351]
本研究では, 大規模言語モデル(LLM)の性能評価を行った。我々は,新しいベンチマークデータセットであるCounterBenchを紹介した。
論文参考訳（メタデータ） (2025-02-16T06:19:37Z)
GSM-Infinite: How Do Your LLMs Behave over Infinitely Increasing Context Length and Reasoning Complexity? [37.399561533852506]
微粒化制御下での難易度と文脈長を無限に低減した算術問題を生成することができる小学校数学問題生成装置を開発した。複雑性が増大するにつれて、推論性能が一貫したシグマノイドの低下と、体系的な推論スケーリングの傾向が見られます。
論文参考訳（メタデータ） (2025-02-07T17:05:25Z)
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文参考訳（メタデータ） (2024-10-07T02:30:07Z)
Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。既存の数式語問題に対して,それらの性能を併用して評価する。
論文参考訳（メタデータ） (2024-10-02T17:01:10Z)
Scheherazade: Evaluating Chain-of-Thought Math Reasoning in LLMs with Chain-of-Problems [5.755472812258969]
Scheherazadeは、大量の挑戦的な数学的推論ベンチマークを自動生成する手法である。本稿では,前鎖法と後鎖法という,ランダムな分岐手法を含む2つの異なる連鎖法を提案する。我々は,他のフロンティアモデルの性能低下がわずか数問の連鎖で急激に進行するのに対し,評価の結果,o1-previewのパフォーマンスは持続することを示した。
論文参考訳（メタデータ） (2024-09-30T18:48:34Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs [8.89259409245068]
大規模言語モデル(LLM)は、数学的推論において印象的な能力を示す。我々はMathematical Topics Tree (MaTT)ベンチマークを提示する。最上級モデルであるGPT-4は,複数選択シナリオにおいて,わずか54%の精度を達成した。
論文参考訳（メタデータ） (2024-06-07T18:21:26Z)
A Careful Examination of Large Language Model Performance on Grade School Arithmetic [4.573055530800853]
大規模言語モデル (LLM) は、数学的推論のための多くのベンチマークで驚くべき成功を収めた。このパフォーマンスの一部は、実際にデータセットの汚染を反映している、という懸念が高まっている。
論文参考訳（メタデータ） (2024-05-01T05:52:05Z)
Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文参考訳（メタデータ） (2024-04-25T10:03:14Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Premise Order Matters in Reasoning with Large Language Models [57.18850969634412]
大規模言語モデル (LLM) は,前提の順序に驚くほど脆弱であることを示す。前提順序が中間的推論ステップで要求されるコンテキストと一致した場合, LLM が最高の性能を達成することを観察する。
論文参考訳（メタデータ） (2024-02-14T04:50:18Z)
Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。 i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文参考訳（メタデータ） (2024-01-17T18:13:07Z)
The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。 LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文参考訳（メタデータ） (2023-11-14T07:26:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。