論文の概要: Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge
Evaluation
- arxiv url: http://arxiv.org/abs/2306.05783v3
- Date: Mon, 11 Mar 2024 09:49:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 17:06:44.932487
- Title: Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge
Evaluation
- Title(参考訳): Xiezhi: ソリスティックなドメイン知識評価のためのベンチマーク
- Authors: Zhouhong Gu, Xiaoxuan Zhu, Haoning Ye, Lin Zhang, Jianchen Wang, Yixin
Zhu, Sihang Jiang, Zhuozhi Xiong, Zihan Li, Weijie Wu, Qianyu He, Rui Xu,
Wenhao Huang, Jingping Liu, Zili Wang, Shusen Wang, Weiguo Zheng, Hongwei
Feng, Yanghua Xiao
- Abstract要約: 我々は、総合的なドメイン知識を評価するために設計された最も包括的な評価スイートであるXiezhiを紹介する。
Xiezhiは、13の被験者から249,587の質問、Xiezhi- SpecialtyとXiezhi-Interdisciplineを伴い、15kの質問を含む516の多様な分野にわたる複数の選択の質問で構成されている。
- 参考スコア(独自算出の注目度): 61.56563631219381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: New Natural Langauge Process~(NLP) benchmarks are urgently needed to align
with the rapid development of large language models (LLMs). We present Xiezhi,
the most comprehensive evaluation suite designed to assess holistic domain
knowledge. Xiezhi comprises multiple-choice questions across 516 diverse
disciplines ranging from 13 different subjects with 249,587 questions and
accompanied by Xiezhi-Specialty and Xiezhi-Interdiscipline, both with 15k
questions. We conduct evaluation of the 47 cutting-edge LLMs on Xiezhi. Results
indicate that LLMs exceed average performance of humans in science,
engineering, agronomy, medicine, and art, but fall short in economics,
jurisprudence, pedagogy, literature, history, and management. We anticipate
Xiezhi will help analyze important strengths and shortcomings of LLMs, and the
benchmark is released in~\url{https://github.com/MikeGu721/XiezhiBenchmark}.
- Abstract(参考訳): 新しいNLP(Natural Langauge Process)ベンチマークは、大規模言語モデル(LLM)の急速な開発に合わせて緊急に必要である。
我々は、総合的なドメイン知識を評価するために設計された最も包括的な評価スイートであるXiezhiを紹介する。
Xiezhiは、13の被験者から249,587の質問、Xiezhi-SpecialtyとXiezhi-Interdisciplineを伴い、15kの質問を含む516の多様な分野にわたる複数の選択の質問を含んでいる。
我々は, Xiezhi 上で47個の切刃 LLM の評価を行った。
その結果, LLMは, 科学, 工学, 農学, 医学, 芸術において, 人間の平均的業績を上回るが, 経済学, 法学, 教育学, 文学, 歴史, 管理に乏しいことが示唆された。
我々は、XiezhiがLLMの重要な長所と短所を分析するのに役立ち、ベンチマークを~\url{https://github.com/MikeGu721/XiezhiBenchmark}でリリースすることを期待している。
関連論文リスト
- SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [122.04298386571692]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - Humanity's Last Exam [253.45228996132735]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。
数学、人文科学、自然科学など、数十の科目にわたる3000の質問で構成されている。
各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文 参考訳(メタデータ) (2025-01-24T05:27:46Z) - MINTQA: A Multi-Hop Question Answering Benchmark for Evaluating LLMs on New and Tail Knowledge [24.66666826440994]
MINTQAは、マルチホップ推論における大規模言語モデルの能力を評価するベンチマークである。
MINTQAは、新しい知識を評価するための10,479対の質問応答ペアと、長い知識を評価するための17,887対の質問応答ペアからなる。
MINTQA上での22の最先端LCMの体系的評価により,複雑な知識ベースクエリを扱う能力に重大な制限があることが判明した。
論文 参考訳(メタデータ) (2024-12-22T14:17:12Z) - CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。
複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文 参考訳(メタデータ) (2024-10-23T04:55:08Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning [20.56989082014445]
MLLM(Multi-modal large language model)は、様々なタスクにまたがる有望な機能を示す。
本稿では,25種の代表的MLLMの科学的推論における性能について詳細に評価する。
最も優れた性能は、クロード3.5-ソネットによる数学の53.4%の精度、GPT-4oによる物理学の38.2%、ジェミニ1.5-Proによる化学の47.0%である。
論文 参考訳(メタデータ) (2024-09-10T01:20:26Z) - LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models [46.77647640464652]
Chinese Large Language Models (LLMs)は、最近、様々なNLPベンチマークと実世界のアプリケーションで印象的な能力を実証した。
大規模・完全・多目的知識評価ベンチマークLHMKEを提案する。
初等学校から専門的認定試験まで、30の科目をカバーする75の課題に10,465の質問がある。
論文 参考訳(メタデータ) (2024-03-19T10:11:14Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Domain Mastery Benchmark: An Ever-Updating Benchmark for Evaluating
Holistic Domain Knowledge of Large Language Model--A Preliminary Release [13.603414598813938]
DomMaは、ドメイン知識の理解に基づいてLarge Language Models(LLM)をテストすることを目標としている。
広範なドメインカバレッジ、大規模なデータボリューム、中国の112の第一級対象分類に基づいた継続的に更新されたデータセットを備えている。
論文 参考訳(メタデータ) (2023-04-23T15:11:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。