論文の概要: SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in
Chinese
- arxiv url: http://arxiv.org/abs/2401.11819v1
- Date: Mon, 22 Jan 2024 10:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 14:33:20.146331
- Title: SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in
Chinese
- Title(参考訳): SuperCLUE-Math6: 中国語におけるLLMのグレード付きマルチステップ数学推論ベンチマーク
- Authors: Liang Xu, Hang Xue, Lei Zhu, Kangkang Zhao
- Abstract要約: SuperCLUE-Math6は、中国語モデルの数学的推論能力を評価するための新しいベンチマークデータセットである。
SC-Math6はGSM8Kデータセットの中国語版として設計されており、難易度、多様性、アプリケーションスコープが向上している。
- 参考スコア(独自算出の注目度): 21.893992064105085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SuperCLUE-Math6(SC-Math6), a new benchmark dataset to evaluate
the mathematical reasoning abilities of Chinese language models. SC-Math6 is
designed as an upgraded Chinese version of the GSM8K dataset with enhanced
difficulty, diversity, and application scope. It consists of over 2000
mathematical word problems requiring multi-step reasoning and providing natural
language solutions. We propose an innovative scheme to quantify the reasoning
capability of large models based on performance over problems with different
reasoning steps. Experiments on 12 representative Chinese models demonstrate a
clear stratification of reasoning levels, with top models like GPT-4 showing
superior performance. SC-Math6 fills the gap in Chinese mathematical reasoning
benchmarks and provides a comprehensive testbed to advance the intelligence of
Chinese language models.
- Abstract(参考訳): 中国語モデルの数学的推論能力を評価するためのベンチマークデータセットであるSuperCLUE-Math6(SC-Math6)を紹介する。
SC-Math6はGSM8Kデータセットの中国語版として設計されており、難易度、多様性、アプリケーションスコープが向上している。
複数ステップの推論と自然言語ソリューションの提供を必要とする2000以上の数学的単語問題で構成されている。
本研究では,異なる推論ステップを持つ問題に対する性能に基づく大規模モデルの推論能力の定量化手法を提案する。
代表的な12種類の中国モデルの実験では、GPT-4のような上位モデルの方が優れた性能を示し、推論レベルの明確な成層化が示されている。
sc-math6は中国の数学的推論ベンチマークのギャップを埋め、中国語モデルの知能を前進させるための包括的なテストベッドを提供する。
関連論文リスト
- UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [8.582930981424528]
本稿では,広範囲な単体テストを通じてモデルをしっかりと評価する UTMath Benchmark を紹介する。
9つの数学領域にまたがる1,053の問題で構成され、1つの問題に対して68以上のテストケースがある。
我々は、LLMがコードを生成する前に明示的な推論を実行することを奨励するReasoning-to-Coding of Thoughts(RCoT)アプローチを導入する。
論文 参考訳(メタデータ) (2024-11-11T18:59:02Z) - RoMath: A Mathematical Reasoning Benchmark in Romanian [7.7559527224629266]
本稿では、3つのデータセットからなるルーマニアの数学的推論ベンチマークスイートであるRoMathを紹介する。
独特な言語特徴を持つ低リソース言語であるルーマニア語に焦点を当てることで、RoMathはアングロ中心モデルの限界に対処する。
いくつかのオープンウェイト言語モデルをベンチマークし、表現不足言語のためのリソースを作成することの重要性を強調した。
論文 参考訳(メタデータ) (2024-09-17T11:03:46Z) - CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for Foundation Models [41.02149566318779]
CMMaTHという中国のマルチモーダル数学スキル評価ベンチマークを提案する。
我々は,CMMaTHデータセットと統合したオープンソースツール GradeGPT を構築し,安定,迅速,低コストなモデル評価を容易にする。
論文 参考訳(メタデータ) (2024-06-28T02:35:51Z) - MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。
MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文 参考訳(メタデータ) (2024-05-20T17:52:29Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - CMATH: Can Your Language Model Pass Chinese Elementary School Math Test? [15.53530547827583]
中国小学校数学語問題データセットについて, 詳細な注釈付き1.7kの小学校レベルの数学語問題を含む。
このデータセットは、人気のある大規模言語モデル(LLM)の能力を評価するためのベンチマークツールを提供することを目的としている。
商用とオープンソースの両方の選択肢を含む,多種多様なLCMを評価し,小学校6学年でGPT-4のみが成功(精度$geq$60%)していることを確認した。
論文 参考訳(メタデータ) (2023-06-29T02:19:50Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Language Models are Multilingual Chain-of-Thought Reasoners [83.37148309771378]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。
MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。
言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文 参考訳(メタデータ) (2022-10-06T17:03:34Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。