論文の概要: M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark
for Chinese Large Language Models
- arxiv url: http://arxiv.org/abs/2305.10263v1
- Date: Wed, 17 May 2023 14:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 15:21:17.707908
- Title: M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark
for Chinese Large Language Models
- Title(参考訳): m3ke - 中国語大規模言語モデルのための大規模マルチサブジェクト知識評価ベンチマーク
- Authors: Chuang Liu, Renren Jin, Yuqi Ren, Linhao Yu, Tianyu Dong, Xiaohan
Peng, Shuting Zhang, Jianxiang Peng, Peiyi Zhang, Qingqing Lyu, Xiaowen Su,
Qun Liu, Deyi Xiong
- Abstract要約: M3KE(M3KE)は、多層多目的知識評価ベンチマークである。
中国語の大規模言語モデルによって得られた知識を測定するために開発された。
71のタスクから20,477の質問を集めました。
- 参考スコア(独自算出の注目度): 35.17226595231825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have recently made tremendous progress in a variety of
aspects, e.g., cross-task generalization, instruction following.
Comprehensively evaluating the capability of large language models in multiple
tasks is of great importance. In this paper, we propose M3KE, a Massive
Multi-Level Multi-Subject Knowledge Evaluation benchmark, which is developed to
measure knowledge acquired by Chinese large language models by testing their
multitask accuracy in zero- and few-shot settings. We have collected 20,477
questions from 71 tasks. Our selection covers all major levels of Chinese
education system, ranging from the primary school to college, as well as a wide
variety of subjects, including humanities, history, politics, law, education,
psychology, science, technology, art and religion. All questions are
multiple-choice questions with four options, hence guaranteeing a standardized
and unified assessment process. We've assessed a number of state-of-the-art
open-source Chinese large language models on the proposed benchmark. The size
of these models varies from 335M to 130B parameters. Experiment results
demonstrate that they perform significantly worse than GPT-3.5 that reaches an
accuracy of ~ 48% on M3KE. The dataset is available at
https://github.com/tjunlp-lab/M3KE.
- Abstract(参考訳): 大規模言語モデルは、最近、クロスタスクの一般化、次の命令など、様々な面で大きな進歩を遂げた。
複数のタスクにおける大規模言語モデルの能力の包括的評価は非常に重要である。
本稿では,中国の大規模言語モデルが獲得する知識をゼロショットと少数ショットの設定でマルチタスク精度をテストするために開発した,大規模マルチサブジェクト知識評価ベンチマークであるm3keを提案する。
71のタスクから20,477の質問を集めました。
私たちの選択は、小学校から大学まで、また人文科学、歴史、政治、法律、教育、心理学、科学、技術、芸術、宗教を含む幅広い分野を含む、中国の教育システムの全ての主要なレベルをカバーしている。
すべての質問は4つの選択肢を持つ複数の質問であり、標準化され統一された評価プロセスを保証する。
提案ベンチマークでは,最先端のオープンソース中国語大言語モデルをいくつか評価した。
これらのモデルのサイズは335Mから130Bまで様々である。
実験の結果, GPT-3.5の精度はM3KEで約48%に低下した。
データセットはhttps://github.com/tjunlp-lab/m3keで入手できる。
関連論文リスト
- M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models [27.18427414844769]
M4Uは多分野多言語マルチモーダル理解と推論の能力を評価するための新しいベンチマークである。
M4Uは、中国語、英語、ドイツ語の科学、工学、医療の分野で64の分野をカバーする8,931のサンプルを含んでいる。
M4Uを用いて,LMM(Large Multimodal Models)とLLM(Large Language Models)を外部ツールで評価する。
論文 参考訳(メタデータ) (2024-05-24T15:25:28Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - SceMQA: A Scientific College Entrance Level Multimodal Question
Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。
SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。
複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文 参考訳(メタデータ) (2024-02-06T19:16:55Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - EXAMS: A Multi-Subject High School Examinations Dataset for
Cross-Lingual and Multilingual Question Answering [22.926709247193724]
EXAMSは、高校試験のための多言語および多言語質問応答のための新しいベンチマークデータセットである。
我々は16言語で24,000以上の高品質の高校試験の質問を収集し、自然科学・社会科学の8つの言語家族と24の教科をカバーした。
論文 参考訳(メタデータ) (2020-11-05T20:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。