論文の概要: ConceptMath: A Bilingual Concept-wise Benchmark for Measuring
Mathematical Reasoning of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.14660v2
- Date: Fri, 23 Feb 2024 07:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 11:46:56.280338
- Title: ConceptMath: A Bilingual Concept-wise Benchmark for Measuring
Mathematical Reasoning of Large Language Models
- Title(参考訳): ConceptMath: 大規模言語モデルの数学的推論計測のためのバイリンガル概念的ベンチマーク
- Authors: Yanan Wu, Jie Liu, Xingyuan Bu, Jiaheng Liu, Zhanhui Zhou, Yuanxing
Zhang, Chenchen Zhang, Zhiqi Bai, Haibin Chen, Tiezheng Ge, Wanli Ouyang,
Wenbo Su, Bo Zheng
- Abstract要約: 本稿では,Large Language Models (LLMs) の概念的数学的推論を評価するための詳細なベンチマークであるConceptMathを紹介する。
一般的な数学的推論を平均精度で評価する従来のベンチマークとは異なり、ConceptMathは数学の問題を数学的概念の階層の下に体系的に整理する。
- 参考スコア(独自算出の注目度): 67.32868432113587
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper introduces ConceptMath, a bilingual (English and Chinese),
fine-grained benchmark that evaluates concept-wise mathematical reasoning of
Large Language Models (LLMs). Unlike traditional benchmarks that evaluate
general mathematical reasoning with an average accuracy, ConceptMath
systematically organizes math problems under a hierarchy of math concepts, so
that mathematical reasoning can be evaluated at different granularity with
concept-wise accuracies. Based on our ConcepthMath, we evaluate a broad range
of LLMs, and we observe existing LLMs, though achieving high average accuracies
on traditional benchmarks, exhibit significant performance variations across
different math concepts and may even fail catastrophically on the most basic
ones. Besides, we also introduce an efficient fine-tuning strategy to enhance
the weaknesses of existing LLMs. Finally, we hope ConceptMath could guide the
developers to understand the fine-grained mathematical abilities of their
models and facilitate the growth of foundation models.
- Abstract(参考訳): 本稿では,大言語モデル(llm)の概念的推論を評価する,バイリンガル(英語と中国語)なきめ細かなベンチマークであるconceptmathを紹介する。
一般的な数学的推論を平均精度で評価する従来のベンチマークとは異なり、conceptmathは数学の概念の階層の下に数学問題を体系的に整理する。
従来のベンチマークでは高い平均精度を達成でき、様々な数学概念に有意な性能変化を示し、また、最も基本的なものでも破滅的に失敗する可能性さえあるが、この概念に基づいてLLMを幅広い範囲で評価し、既存のLLMを観察する。
また,既存のLLMの弱点を高めるために,効率的な微調整戦略を導入する。
最後に、ConceptMathは、開発者がモデルのきめ細かい数学的能力を理解し、基礎モデルの成長を促進することができることを願っている。
関連論文リスト
- FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese
Large Language Models [47.560637703675816]
FineMathは、中国語大言語モデル(LLM)を評価するための詳細な数学的評価ベンチマークデータセットである。
FineMathは、小学校数学で教えられる主要な数学的概念をカバーし、数学用語の問題の17のカテゴリに分けられる。
数学の単語問題のうち17のカテゴリは、これらの問題を解決するために必要な推論ステップの数に応じて、難易度を手動でアノテートする。
論文 参考訳(メタデータ) (2024-03-12T15:32:39Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Large Language Models for Mathematicians [58.196955111156676]
大規模言語モデル(LLM)は、汎用言語理解、特に高品質なテキストやコンピュータコードを生成する能力に多大な関心を集めている。
本稿では,プロの数学者をどの程度支援できるかについて論じる。
論文 参考訳(メタデータ) (2023-12-07T18:59:29Z) - DocMath-Eval: Evaluating Numerical Reasoning Capabilities of LLMs in
Understanding Long Documents with Tabular Data [39.80029341097823]
本稿では,LLMの数値推論と問題解決能力を評価するベンチマークであるDocMath-Evalを紹介する。
コーディングやファイナンスを専門とする19のLLMを幅広く評価する。
論文 参考訳(メタデータ) (2023-11-16T11:30:53Z) - A Survey of Deep Learning for Mathematical Reasoning [71.88150173381153]
我々は過去10年間の数学的推論とディープラーニングの交差点における重要なタスク、データセット、方法についてレビューする。
大規模ニューラルネットワークモデルの最近の進歩は、新しいベンチマークと、数学的推論にディープラーニングを使用する機会を開放している。
論文 参考訳(メタデータ) (2022-12-20T18:46:16Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。