Fugu-MT 論文翻訳(概要): Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation

論文の概要: Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation

arxiv url: http://arxiv.org/abs/2306.05783v3
Date: Mon, 11 Mar 2024 09:49:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 17:06:44.932487
Title: Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation
Title（参考訳）: Xiezhi: ソリスティックなドメイン知識評価のためのベンチマーク
Authors: Zhouhong Gu, Xiaoxuan Zhu, Haoning Ye, Lin Zhang, Jianchen Wang, Yixin Zhu, Sihang Jiang, Zhuozhi Xiong, Zihan Li, Weijie Wu, Qianyu He, Rui Xu, Wenhao Huang, Jingping Liu, Zili Wang, Shusen Wang, Weiguo Zheng, Hongwei Feng, Yanghua Xiao
Abstract要約: 我々は、総合的なドメイン知識を評価するために設計された最も包括的な評価スイートであるXiezhiを紹介する。 Xiezhiは、13の被験者から249,587の質問、Xiezhi- SpecialtyとXiezhi-Interdisciplineを伴い、15kの質問を含む516の多様な分野にわたる複数の選択の質問で構成されている。
参考スコア（独自算出の注目度）: 61.56563631219381
License: http://creativecommons.org/licenses/by/4.0/
Abstract: New Natural Langauge Process~(NLP) benchmarks are urgently needed to align with the rapid development of large language models (LLMs). We present Xiezhi, the most comprehensive evaluation suite designed to assess holistic domain knowledge. Xiezhi comprises multiple-choice questions across 516 diverse disciplines ranging from 13 different subjects with 249,587 questions and accompanied by Xiezhi-Specialty and Xiezhi-Interdiscipline, both with 15k questions. We conduct evaluation of the 47 cutting-edge LLMs on Xiezhi. Results indicate that LLMs exceed average performance of humans in science, engineering, agronomy, medicine, and art, but fall short in economics, jurisprudence, pedagogy, literature, history, and management. We anticipate Xiezhi will help analyze important strengths and shortcomings of LLMs, and the benchmark is released in~\url{https://github.com/MikeGu721/XiezhiBenchmark}.
Abstract（参考訳）: 新しいNLP(Natural Langauge Process)ベンチマークは、大規模言語モデル(LLM)の急速な開発に合わせて緊急に必要である。我々は、総合的なドメイン知識を評価するために設計された最も包括的な評価スイートであるXiezhiを紹介する。 Xiezhiは、13の被験者から249,587の質問、Xiezhi-SpecialtyとXiezhi-Interdisciplineを伴い、15kの質問を含む516の多様な分野にわたる複数の選択の質問を含んでいる。我々は, Xiezhi 上で47個の切刃 LLM の評価を行った。その結果, LLMは, 科学, 工学, 農学, 医学, 芸術において, 人間の平均的業績を上回るが, 経済学, 法学, 教育学, 文学, 歴史, 管理に乏しいことが示唆された。我々は、XiezhiがLLMの重要な長所と短所を分析するのに役立ち、ベンチマークを~\url{https://github.com/MikeGu721/XiezhiBenchmark}でリリースすることを期待している。

関連論文リスト

Domain Specific Benchmarks for Evaluating Multimodal Large Language Models [3.1546387965618337]
大きな言語モデル(LLM)は、高度な推論と問題解決能力のために、規律を越えてデプロイされることが増えている。本稿では,LLMを広く活用する領域や応用領域を網羅した,7つの重要な分野の分類について紹介する。我々はこれらのベンチマークをドメイン単位でコンパイルし、分類し、研究者のためのアクセス可能なリソースを作成します。
論文参考訳（メタデータ） (2025-06-15T20:42:45Z)
SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [118.8024915014751]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。 285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文参考訳（メタデータ） (2025-02-20T17:05:58Z)
Humanity's Last Exam [434.8511341499966]
HumanityのLast Exam(HLE)は、人間の知識の最前線におけるマルチモーダルベンチマークである。数学、人文科学、自然科学など、数十の分野にまたがる2,500の質問で構成されている。各質問には、曖昧で容易に検証できる既知のソリューションがあるが、インターネット検索ではすぐには答えられない。
論文参考訳（メタデータ） (2025-01-24T05:27:46Z)
MINTQA: A Multi-Hop Question Answering Benchmark for Evaluating LLMs on New and Tail Knowledge [24.66666826440994]
MINTQAは、マルチホップ推論における大規模言語モデルの能力を評価するベンチマークである。 MINTQAは、新しい知識を評価するための10,479対の質問応答ペアと、長い知識を評価するための17,887対の質問応答ペアからなる。 MINTQA上での22の最先端LCMの体系的評価により,複雑な知識ベースクエリを扱う能力に重大な制限があることが判明した。
論文参考訳（メタデータ） (2024-12-22T14:17:12Z)
CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文参考訳（メタデータ） (2024-10-23T04:55:08Z)
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs [61.74749961334557]
MathHayは、LLMの長文数学的推論能力を評価するために設計された自動ベンチマークである。我々は,8つのトップパフォーマンスモデルの長文数学的推論能力を評価するために,MathHayの広範な実験を行った。
論文参考訳（メタデータ） (2024-10-07T02:30:07Z)
Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。 PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-10-06T20:35:41Z)
VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning [32.811840681428464]
MLLM(Multi-modal large language model)は、様々なタスクにまたがる有望な機能を示す。本稿では,25種の代表的MLLMの科学的推論における性能について詳細に評価する。最も優れた性能は、クロード3.5-ソネットによる数学の53.4%の精度、GPT-4oによる物理学の38.2%、ジェミニ1.5-Proによる化学の47.0%である。
論文参考訳（メタデータ） (2024-09-10T01:20:26Z)
LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models [46.77647640464652]
Chinese Large Language Models (LLMs)は、最近、様々なNLPベンチマークと実世界のアプリケーションで印象的な能力を実証した。大規模・完全・多目的知識評価ベンチマークLHMKEを提案する。初等学校から専門的認定試験まで、30の科目をカバーする75の課題に10,465の質問がある。
論文参考訳（メタデータ） (2024-03-19T10:11:14Z)
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。 SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文参考訳（メタデータ） (2023-07-20T07:01:57Z)
CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文参考訳（メタデータ） (2023-06-15T15:49:51Z)
Domain Mastery Benchmark: An Ever-Updating Benchmark for Evaluating Holistic Domain Knowledge of Large Language Model--A Preliminary Release [13.603414598813938]
DomMaは、ドメイン知識の理解に基づいてLarge Language Models(LLM)をテストすることを目標としている。広範なドメインカバレッジ、大規模なデータボリューム、中国の112の第一級対象分類に基づいた継続的に更新されたデータセットを備えている。
論文参考訳（メタデータ） (2023-04-23T15:11:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。