論文の概要: Evaluating Grounded Reasoning by Code-Assisted Large Language Models for Mathematics
- arxiv url: http://arxiv.org/abs/2504.17665v1
- Date: Thu, 24 Apr 2025 15:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.439289
- Title: Evaluating Grounded Reasoning by Code-Assisted Large Language Models for Mathematics
- Title(参考訳): 代用符号支援大言語モデルによる接地推論の評価
- Authors: Zena Al-Khalili, Nick Howell, Dietrich Klakow,
- Abstract要約: この研究は、LLMがプログラムを数学の規則に当てはめている範囲と、それがエンドパフォーマンスにどのように影響するかに焦点を当てている。
この結果から,グラウンドリングの分布はLLMの能力と数学問題の難しさに依存することが明らかとなった。
MATH500では、アングラウンドプログラムの割合は半減し、アングラウンドプログラムはASDivの小学校問題と比較して倍増した。
- 参考スコア(独自算出の注目度): 15.695635219034328
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Assisting LLMs with code generation improved their performance on mathematical reasoning tasks. However, the evaluation of code-assisted LLMs is generally restricted to execution correctness, lacking a rigorous evaluation of their generated programs. In this work, we bridge this gap by conducting an in-depth analysis of code-assisted LLMs' generated programs in response to math reasoning tasks. Our evaluation focuses on the extent to which LLMs ground their programs to math rules, and how that affects their end performance. For this purpose, we assess the generations of five different LLMs, on two different math datasets, both manually and automatically. Our results reveal that the distribution of grounding depends on LLMs' capabilities and the difficulty of math problems. Furthermore, mathematical grounding is more effective for closed-source models, while open-source models fail to employ math rules in their solutions correctly. On MATH500, the percentage of grounded programs decreased to half, while the ungrounded generations doubled in comparison to ASDiv grade-school problems. Our work highlights the need for in-depth evaluation beyond execution accuracy metrics, toward a better understanding of code-assisted LLMs' capabilities and limits in the math domain.
- Abstract(参考訳): コード生成によるLLMの補助により、数学的推論タスクのパフォーマンスが向上した。
しかし、コードアシストLDMの評価は一般に実行の正確さに制限されており、生成したプログラムの厳密な評価が欠如している。
本研究では,このギャップを,数値推論タスクに応答して,コード支援型LLM生成プログラムの詳細な解析を行うことで埋める。
本評価は,LLMがプログラムを数学規則に適合させる範囲と,それがプログラムの終了性能に与える影響に焦点をあてる。
この目的のために、手動と自動の2つの異なる数学データセットに基づいて、5つの異なるLLMの世代を評価する。
この結果から,グラウンドリングの分布はLLMの能力と数学問題の難しさに依存することが明らかとなった。
さらに、クローズドソースモデルでは数学的グラウンドリングがより効果的であるが、オープンソースモデルはそれらのソリューションに数学の規則を正しく適用しない。
MATH500では、アングラウンドプログラムの割合は半減し、アングラウンドプログラムはASDivの小学校問題と比較して倍増した。
我々の研究は、コードアシスト型LLMの能力と数学領域の限界をよりよく理解するために、実行精度の指標を超えた詳細な評価の必要性を強調している。
関連論文リスト
- HARDMath: A Benchmark Dataset for Challenging Problems in Applied Mathematics [1.5716764919736026]
本稿では,解析的近似技術を必要とする応用数学問題に挑戦するデータセットであるHARDMathを紹介する。
本フレームワークは,数値基底真理に対して検証された解を用いて,多数の問題を自動生成する。
HARDMath-miniは,366問題からなるサブサンプルテストセットであり,応用科学の文脈で定式化された40の単語問題に対して,オープンソースLLMとクローズドソースLLMの両方を評価する。
論文 参考訳(メタデータ) (2024-10-13T20:09:41Z) - MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。
我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-07T02:30:07Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning [98.53491178426492]
InternLM2から事前学習を継続するILMs InternLM-Mathをオープンソースとして公開する。
我々は、連鎖推論、報酬モデリング、形式推論、データ拡張、コードインタプリタを、統一されたSeq2seqフォーマットで統一する。
我々の事前学習モデルは、微調整なしでMiniF2Fテストセットで30.3を達成する。
論文 参考訳(メタデータ) (2024-02-09T11:22:08Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。