Fugu-MT 論文翻訳(概要): SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in Chinese

論文の概要: SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in Chinese

arxiv url: http://arxiv.org/abs/2401.11819v2
Date: Fri, 2 Feb 2024 02:35:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 18:39:22.574730
Title: SuperCLUE-Math6: Graded Multi-Step Math Reasoning Benchmark for LLMs in Chinese
Title（参考訳）: SuperCLUE-Math6: 中国語におけるLLMのグレード付きマルチステップ数学推論ベンチマーク
Authors: Liang Xu, Hang Xue, Lei Zhu, Kangkang Zhao
Abstract要約: SuperCLUE-Math6は、中国語モデルの数学的推論能力を評価するための新しいベンチマークデータセットである。 SC-Math6はGSM8Kデータセットの中国語版として設計されており、難易度、多様性、アプリケーションスコープが向上している。
参考スコア（独自算出の注目度）: 21.893992064105085
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce SuperCLUE-Math6(SC-Math6), a new benchmark dataset to evaluate the mathematical reasoning abilities of Chinese language models. SC-Math6 is designed as an upgraded Chinese version of the GSM8K dataset with enhanced difficulty, diversity, and application scope. It consists of over 2000 mathematical word problems requiring multi-step reasoning and providing natural language solutions. We propose an innovative scheme to quantify the reasoning capability of large models based on performance over problems with different reasoning steps. Experiments on 13 representative Chinese models demonstrate a clear stratification of reasoning levels, with top models like GPT-4 showing superior performance. SC-Math6 fills the gap in Chinese mathematical reasoning benchmarks and provides a comprehensive testbed to advance the intelligence of Chinese language models.
Abstract（参考訳）: 中国語モデルの数学的推論能力を評価するためのベンチマークデータセットであるSuperCLUE-Math6(SC-Math6)を紹介する。 SC-Math6はGSM8Kデータセットの中国語版として設計されており、難易度、多様性、アプリケーションスコープが向上している。複数ステップの推論と自然言語ソリューションの提供を必要とする2000以上の数学的単語問題で構成されている。本研究では,異なる推論ステップを持つ問題に対する性能に基づく大規模モデルの推論能力の定量化手法を提案する。 13の代表的な中国のモデルに対する実験では、GPT-4のような上位モデルの優れた性能が示され、推論レベルの明確な成層化が示されている。 sc-math6は中国の数学的推論ベンチマークのギャップを埋め、中国語モデルの知能を前進させるための包括的なテストベッドを提供する。

関連論文リスト

MathMist: A Parallel Multilingual Benchmark Dataset for Mathematical Problem Solving and Reasoning [6.8892368960722346]
数学的問題解決と推論のための並列多言語ベンチマークであるMathMistを紹介する。 MathMistには、7つの言語にまたがる21万以上の質問回答ペアが含まれている。我々は,オープンソースの中小LCM,プロプライエタリシステム,多言語推論型モデルなど,多様なモデル群を体系的に評価する。
論文参考訳（メタデータ） (2025-10-16T04:59:52Z)
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。 OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文参考訳（メタデータ） (2025-03-27T11:20:17Z)
Exposing Numeracy Gaps: A Benchmark to Evaluate Fundamental Numerical Abilities in Large Language Models [19.47343987998194]
大規模言語モデル(LLM)は、自然言語処理タスクにおける印象的な機能を示している。基本算術、数値、等級数比較などの数値推論タスクにおけるそれらの性能は、驚くほど貧弱なままである。既存のベンチマークは主に言語能力や構造化された数学的問題解決に焦点を当てている。
論文参考訳（メタデータ） (2025-02-16T10:48:28Z)
UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [8.582930981424528]
本稿では,広範囲な単体テストを通じてモデルをしっかりと評価する UTMath Benchmark を紹介する。 9つの数学領域にまたがる1,053の問題で構成され、1つの問題に対して68以上のテストケースがある。我々は、LLMがコードを生成する前に明示的な推論を実行することを奨励するReasoning-to-Coding of Thoughts(RCoT)アプローチを導入する。
論文参考訳（メタデータ） (2024-11-11T18:59:02Z)
RoMath: A Mathematical Reasoning Benchmark in Romanian [7.7559527224629266]
本稿では、3つのデータセットからなるルーマニアの数学的推論ベンチマークスイートであるRoMathを紹介する。独特な言語特徴を持つ低リソース言語であるルーマニア語に焦点を当てることで、RoMathはアングロ中心モデルの限界に対処する。いくつかのオープンウェイト言語モデルをベンチマークし、表現不足言語のためのリソースを作成することの重要性を強調した。
論文参考訳（メタデータ） (2024-09-17T11:03:46Z)
CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for Foundation Models [41.02149566318779]
CMMaTHという中国のマルチモーダル数学スキル評価ベンチマークを提案する。我々は,CMMaTHデータセットと統合したオープンソースツール GradeGPT を構築し,安定,迅速,低コストなモデル評価を容易にする。
論文参考訳（メタデータ） (2024-06-28T02:35:51Z)
MathBench: Evaluating the Theory and Application Proficiency of LLMs with a Hierarchical Mathematics Benchmark [82.64129627675123]
MathBenchは、大規模言語モデルの数学的能力を厳格に評価する新しいベンチマークである。 MathBenchは幅広い数学の分野にまたがっており、理論的な理解と実践的な問題解決のスキルの両方を詳細に評価している。
論文参考訳（メタデータ） (2024-05-20T17:52:29Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文参考訳（メタデータ） (2023-10-31T08:09:20Z)
CMATH: Can Your Language Model Pass Chinese Elementary School Math Test? [15.53530547827583]
中国小学校数学語問題データセットについて, 詳細な注釈付き1.7kの小学校レベルの数学語問題を含む。このデータセットは、人気のある大規模言語モデル(LLM)の能力を評価するためのベンチマークツールを提供することを目的としている。商用とオープンソースの両方の選択肢を含む,多種多様なLCMを評価し,小学校6学年でGPT-4のみが成功(精度$geq$60%)していることを確認した。
論文参考訳（メタデータ） (2023-06-29T02:19:50Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)
Language Models are Multilingual Chain-of-Thought Reasoners [83.37148309771378]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。 MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文参考訳（メタデータ） (2022-10-06T17:03:34Z)
JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文参考訳（メタデータ） (2022-06-13T17:03:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。