論文の概要: SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in
Chinese
- arxiv url: http://arxiv.org/abs/2401.11819v2
- Date: Fri, 2 Feb 2024 02:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 18:39:22.574730
- Title: SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in
Chinese
- Title(参考訳): SuperCLUE-Math6: 中国語におけるLLMのグレード付きマルチステップ数学推論ベンチマーク
- Authors: Liang Xu, Hang Xue, Lei Zhu, Kangkang Zhao
- Abstract要約: SuperCLUE-Math6は、中国語モデルの数学的推論能力を評価するための新しいベンチマークデータセットである。
SC-Math6はGSM8Kデータセットの中国語版として設計されており、難易度、多様性、アプリケーションスコープが向上している。
- 参考スコア(独自算出の注目度): 21.893992064105085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SuperCLUE-Math6(SC-Math6), a new benchmark dataset to evaluate
the mathematical reasoning abilities of Chinese language models. SC-Math6 is
designed as an upgraded Chinese version of the GSM8K dataset with enhanced
difficulty, diversity, and application scope. It consists of over 2000
mathematical word problems requiring multi-step reasoning and providing natural
language solutions. We propose an innovative scheme to quantify the reasoning
capability of large models based on performance over problems with different
reasoning steps. Experiments on 13 representative Chinese models demonstrate a
clear stratification of reasoning levels, with top models like GPT-4 showing
superior performance. SC-Math6 fills the gap in Chinese mathematical reasoning
benchmarks and provides a comprehensive testbed to advance the intelligence of
Chinese language models.
- Abstract(参考訳): 中国語モデルの数学的推論能力を評価するためのベンチマークデータセットであるSuperCLUE-Math6(SC-Math6)を紹介する。
SC-Math6はGSM8Kデータセットの中国語版として設計されており、難易度、多様性、アプリケーションスコープが向上している。
複数ステップの推論と自然言語ソリューションの提供を必要とする2000以上の数学的単語問題で構成されている。
本研究では,異なる推論ステップを持つ問題に対する性能に基づく大規模モデルの推論能力の定量化手法を提案する。
13の代表的な中国のモデルに対する実験では、GPT-4のような上位モデルの優れた性能が示され、推論レベルの明確な成層化が示されている。
sc-math6は中国の数学的推論ベンチマークのギャップを埋め、中国語モデルの知能を前進させるための包括的なテストベッドを提供する。
関連論文リスト
- GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning:
Insights and Observations [90.73517523001149]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - KwaiYiiMath: Technical Report [32.26926431983553]
我々は KwaiYiiBase1 の数学的推論能力を高める KwaiYiiMath を紹介する。
また, モデルが生成した問題解決過程の正しさを評価するため, 小型の中国小学校数学テストセット(KMath)を構築した。
論文 参考訳(メタデータ) (2023-10-11T13:35:05Z) - CMATH: Can Your Language Model Pass Chinese Elementary School Math Test? [15.53530547827583]
中国小学校数学語問題データセットについて, 詳細な注釈付き1.7kの小学校レベルの数学語問題を含む。
このデータセットは、人気のある大規模言語モデル(LLM)の能力を評価するためのベンチマークツールを提供することを目的としている。
商用とオープンソースの両方の選択肢を含む,多種多様なLCMを評価し,小学校6学年でGPT-4のみが成功(精度$geq$60%)していることを確認した。
論文 参考訳(メタデータ) (2023-06-29T02:19:50Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Language Models are Multilingual Chain-of-Thought Reasoners [83.37148309771378]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。
MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。
言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文 参考訳(メタデータ) (2022-10-06T17:03:34Z) - JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem
Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。
他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。
基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文 参考訳(メタデータ) (2022-06-13T17:03:52Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。