Fugu-MT 論文翻訳(概要): ConceptMath: A Bilingual Concept-wise Benchmark for Measuring Mathematical Reasoning of Large Language Models

論文の概要: ConceptMath: A Bilingual Concept-wise Benchmark for Measuring Mathematical Reasoning of Large Language Models

arxiv url: http://arxiv.org/abs/2402.14660v2
Date: Fri, 23 Feb 2024 07:13:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 11:46:56.280338
Title: ConceptMath: A Bilingual Concept-wise Benchmark for Measuring Mathematical Reasoning of Large Language Models
Title（参考訳）: ConceptMath: 大規模言語モデルの数学的推論計測のためのバイリンガル概念的ベンチマーク
Authors: Yanan Wu, Jie Liu, Xingyuan Bu, Jiaheng Liu, Zhanhui Zhou, Yuanxing Zhang, Chenchen Zhang, Zhiqi Bai, Haibin Chen, Tiezheng Ge, Wanli Ouyang, Wenbo Su, Bo Zheng
Abstract要約: 本稿では,Large Language Models (LLMs) の概念的数学的推論を評価するための詳細なベンチマークであるConceptMathを紹介する。一般的な数学的推論を平均精度で評価する従来のベンチマークとは異なり、ConceptMathは数学の問題を数学的概念の階層の下に体系的に整理する。
参考スコア（独自算出の注目度）: 67.32868432113587
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: This paper introduces ConceptMath, a bilingual (English and Chinese), fine-grained benchmark that evaluates concept-wise mathematical reasoning of Large Language Models (LLMs). Unlike traditional benchmarks that evaluate general mathematical reasoning with an average accuracy, ConceptMath systematically organizes math problems under a hierarchy of math concepts, so that mathematical reasoning can be evaluated at different granularity with concept-wise accuracies. Based on our ConcepthMath, we evaluate a broad range of LLMs, and we observe existing LLMs, though achieving high average accuracies on traditional benchmarks, exhibit significant performance variations across different math concepts and may even fail catastrophically on the most basic ones. Besides, we also introduce an efficient fine-tuning strategy to enhance the weaknesses of existing LLMs. Finally, we hope ConceptMath could guide the developers to understand the fine-grained mathematical abilities of their models and facilitate the growth of foundation models.
Abstract（参考訳）: 本稿では,大言語モデル(llm)の概念的推論を評価する,バイリンガル(英語と中国語)なきめ細かなベンチマークであるconceptmathを紹介する。一般的な数学的推論を平均精度で評価する従来のベンチマークとは異なり、conceptmathは数学の概念の階層の下に数学問題を体系的に整理する。従来のベンチマークでは高い平均精度を達成でき、様々な数学概念に有意な性能変化を示し、また、最も基本的なものでも破滅的に失敗する可能性さえあるが、この概念に基づいてLLMを幅広い範囲で評価し、既存のLLMを観察する。また,既存のLLMの弱点を高めるために,効率的な微調整戦略を導入する。最後に、ConceptMathは、開発者がモデルのきめ細かい数学的能力を理解し、基礎モデルの成長を促進することができることを願っている。

関連論文リスト

Can LLMs $\ extit{understand}$ Math? -- Exploring the Pitfalls in Mathematical Reasoning [0.0]
大規模言語モデル (LLM) は、様々な自然言語処理において大きな可能性を秘めているが、数学的推論において重大な課題に直面している。そこで本研究では,誤り率,冗長性,妥当性を総合的に評価し,不一致の推論を均一に定量化するMAPLEスコア(Maple score)という評価指標を提案する。
論文参考訳（メタデータ） (2025-05-21T15:12:20Z)
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。 OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文参考訳（メタデータ） (2025-03-27T11:20:17Z)
One Example Shown, Many Concepts Known! Counterexample-Driven Conceptual Reasoning in Mathematical LLMs [57.48325300739872]
証明生成のための数学的大規模言語モデルを活用することは、LLM研究の基本的なトピックである。現状のLCMが証明できる能力は、学習中に関連する証明プロセスに遭遇したかどうかに大きく依存していると論じる。人間の数学教育で一般的に用いられる「反例による防御」の教育的手法に触発されて,我々の研究は,反例を通して数学的推論と証明を行うLLMの能力を高めることを目的としている。
論文参考訳（メタデータ） (2025-02-12T02:01:10Z)
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文参考訳（メタデータ） (2024-10-07T02:30:07Z)
MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark [29.9945601202065]
我々は,視覚情報とテキスト情報の組み合わせの理解と適用を強調する新しいベンチマークであるMathScapeを提案する。 MathScapeは、MLLMの理論的理解と応用能力を評価し、写真に基づく数学問題シナリオを評価するように設計されている。我々は11の高度MLLMに対して多次元評価を行い、最も洗練されたモデルでさえベンチマークが困難であることを明らかにした。
論文参考訳（メタデータ） (2024-08-14T13:23:43Z)
MathLearner: A Large Language Model Agent Framework for Learning to Solve Mathematical Problems [0.936726079405677]
本稿では,帰納的推論に基づく数学的問題を解くためのエージェントフレームワークを提案する。学習情報の一般化に関する人間の学習過程をエミュレートすることにより、この枠組みは数学的推論プロセスにおいて優れた性能を発揮する。我々のモデルは個人化された学習支援として利用でき、教育資源の不平等を軽減できる。
論文参考訳（メタデータ） (2024-08-03T13:28:19Z)
Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist [46.670206614087334]
モデルが本当に問題を理解しているなら、さまざまなタスクにまたがって堅牢に適用されるべきである、と私たちは主張する。 MathCheckはタスクの一般化と推論をテストするためのよく設計されたチェックリストである。 MathCheckは真の数学的能力をよく反映し、数学的知性をより線形に表現する。
論文参考訳（メタデータ） (2024-07-11T17:58:58Z)
MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。 MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文参考訳（メタデータ） (2024-05-20T17:52:29Z)
FineMath: A Fine-Grained Mathematical Evaluation Benchmark for Chinese Large Language Models [44.63505885248145]
FineMathは、中国語大言語モデル(LLM)を評価するための詳細な数学的評価ベンチマークデータセットである。 FineMathは、小学校数学で教えられる主要な数学的概念をカバーし、数学用語の問題の17のカテゴリに分けられる。数学の単語問題のうち17のカテゴリは、これらの問題を解決するために必要な推論ステップの数に応じて、難易度を手動でアノテートする。
論文参考訳（メタデータ） (2024-03-12T15:32:39Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文参考訳（メタデータ） (2022-06-13T17:03:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。