論文の概要: C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for
Foundation Models
- arxiv url: http://arxiv.org/abs/2305.08322v3
- Date: Mon, 6 Nov 2023 13:24:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 22:55:46.601211
- Title: C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for
Foundation Models
- Title(参考訳): C-Eval: ファンデーションモデルのためのマルチレベル中国語評価スイート
- Authors: Yuzhen Huang, Yuzhuo Bai, Zhihao Zhu, Junlei Zhang, Jinghan Zhang,
Tangjun Su, Junteng Liu, Chuancheng Lv, Yikai Zhang, Jiayi Lei, Yao Fu,
Maosong Sun, Junxian He
- Abstract要約: C-Evalは、中国語の文脈における基礎モデルの高度な知識と推論能力を評価するために設計された、中国初の総合的な評価スイートである。
C-Evalは、中学、高校、大学、専門職の4つの困難レベルにまたがる複数の質問を含んでいる。
我々は、C-Eval上で最も先進的なLCMについて、英語と中国語の両方のモデルを含む包括的な評価を行う。
- 参考スコア(独自算出の注目度): 58.42279750824907
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: New NLP benchmarks are urgently needed to align with the rapid development of
large language models (LLMs). We present C-Eval, the first comprehensive
Chinese evaluation suite designed to assess advanced knowledge and reasoning
abilities of foundation models in a Chinese context. C-Eval comprises
multiple-choice questions across four difficulty levels: middle school, high
school, college, and professional. The questions span 52 diverse disciplines,
ranging from humanities to science and engineering. C-Eval is accompanied by
C-Eval Hard, a subset of very challenging subjects in C-Eval that requires
advanced reasoning abilities to solve. We conduct a comprehensive evaluation of
the most advanced LLMs on C-Eval, including both English- and Chinese-oriented
models. Results indicate that only GPT-4 could achieve an average accuracy of
over 60%, suggesting that there is still significant room for improvement for
current LLMs. We anticipate C-Eval will help analyze important strengths and
shortcomings of foundation models, and foster their development and growth for
Chinese users.
- Abstract(参考訳): 新しいNLPベンチマークは、大規模言語モデル(LLM)の急速な開発に合わせて緊急に必要である。
基礎モデルの高度な知識と推論能力を評価するための,中国初の総合評価スイートであるc-evalを提案する。
C-Evalは、中学、高校、大学、専門職の4つの困難レベルにまたがる複数の質問を含んでいる。
質問は、人文科学から科学、工学まで、52の異なる分野にまたがる。
C-EvalにはC-Eval Hardが伴い、C-Evalの高度な推論能力を必要とする非常に困難な課題のサブセットである。
英語と中国語の両方のモデルを含む、c-evalにおける最も先進的なllmを包括的に評価する。
その結果、gpt-4のみが平均精度60%以上を達成できたことが示され、現在のllmの改善の余地が依然として残っていることが示唆された。
c-evalはファンデーションモデルの重要な強みと欠点を分析し、中国ユーザーの開発と成長を促進するのに役立つと予測している。
関連論文リスト
- Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models [24.47838086336772]
中国語SimpleQAは、短い質問に答える言語モデルの事実性を評価する最初の包括的な中国のベンチマークである。
私たちは、99の多様なサブトピックを持つ6つの主要なトピックに関する中国語に焦点を当てています。
論文 参考訳(メタデータ) (2024-11-11T17:10:56Z) - CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data [31.324617466692754]
CJEvalは中国の中学校のエクサム評価に基づくベンチマークである。
26,136個のサンプルから成っている。
このベンチマークを用いて,LLMの潜在的な応用性を評価し,その性能を総合的に分析した。
論文 参考訳(メタデータ) (2024-09-24T16:00:28Z) - ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。
既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。
LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-21T08:06:10Z) - MultiPragEval: Multilingual Pragmatic Evaluation of Large Language Models [0.5822010906632046]
本研究では,Large Language Models (LLMs)の最初の実用的評価であるMultiPragEvalを紹介する。
Griceの協力原理に従って分類された1200の質問ユニットを補完するMultiPragEvalは、LLMの文脈認識とインプリケートされた意味を推測する能力の詳細な評価を可能にする。
以上の結果から,Claude3-Opusはすべてのテスト言語で他のモデルよりも優れており,この分野における最先端の確立が期待できる。
論文 参考訳(メタデータ) (2024-06-11T21:46:03Z) - FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文 参考訳(メタデータ) (2024-04-29T01:49:07Z) - E-EVAL: A Comprehensive Chinese K-12 Education Evaluation Benchmark for
Large Language Models [44.74622336775077]
我々は,中国のK-12教育分野を対象とした総合的な評価ベンチマークであるE-EVALを紹介する。
E-EVALは、中国語、英語、政治学、歴史、倫理学、物理学、化学、数学、地理学など幅広い分野の小学校、中学校、高校の4,351問からなる。
GPT 4.0よりも多くのスコアが高いが、ほとんどのモデルは数学のような複雑な科目では性能が劣っている。
論文 参考訳(メタデータ) (2024-01-29T07:34:37Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。