論文の概要: Domain Mastery Benchmark: An Ever-Updating Benchmark for Evaluating
Holistic Domain Knowledge of Large Language Model--A Preliminary Release
- arxiv url: http://arxiv.org/abs/2304.11679v2
- Date: Thu, 10 Aug 2023 05:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 15:55:57.511593
- Title: Domain Mastery Benchmark: An Ever-Updating Benchmark for Evaluating
Holistic Domain Knowledge of Large Language Model--A Preliminary Release
- Title(参考訳): Domain Mastery Benchmark: 大規模言語モデルの全体的ドメイン知識を評価するためのベンチマーク - 予備リリース
- Authors: Zhouhong Gu, Xiaoxuan Zhu, Haoning Ye, Lin Zhang, Zhuozhi Xiong, Zihan
Li, Qianyu He, Sihang Jiang, Hongwei Feng, Yanghua Xiao
- Abstract要約: DomMaは、ドメイン知識の理解に基づいてLarge Language Models(LLM)をテストすることを目標としている。
広範なドメインカバレッジ、大規模なデータボリューム、中国の112の第一級対象分類に基づいた継続的に更新されたデータセットを備えている。
- 参考スコア(独自算出の注目度): 13.603414598813938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain knowledge refers to the in-depth understanding, expertise, and
familiarity with a specific subject, industry, field, or area of special
interest. The existing benchmarks are all lack of an overall design for domain
knowledge evaluation. Holding the belief that the real ability of domain
language understanding can only be fairly evaluated by an comprehensive and
in-depth benchmark, we introduces the Domma, a Domain Mastery Benchmark. DomMa
targets at testing Large Language Models (LLMs) on their domain knowledge
understanding, it features extensive domain coverage, large data volume, and a
continually updated data set based on Chinese 112 first-level subject
classifications. DomMa consist of 100,000 questions in both Chinese and English
sourced from graduate entrance examinations and undergraduate exams in Chinese
college. We have also propose designs to make benchmark and evaluation process
more suitable to LLMs.
- Abstract(参考訳): ドメイン知識(英: domain knowledge)とは、特定の主題、産業、分野、または専門分野に対する深い理解、専門知識、および親密さをいう。
既存のベンチマークはすべて、ドメイン知識評価のための全体的な設計の欠如です。
ドメイン言語理解の本当の能力は包括的かつ深いベンチマークによってのみ十分に評価できるという信念を持ちながら、ドメイン熟達のベンチマークであるdommaを紹介します。
DomMaは、ドメイン知識理解に基づいてLarge Language Models(LLM)をテストすることを目的としており、広範なドメインカバレッジ、大きなデータボリューム、中国の112の第一級対象分類に基づく継続的に更新されたデータセットを備えている。
dommaは中国語と英語の両方で10万の質問から成り、中国の大学での大学院受験と学部受験から派生している。
また,LLMに適合するベンチマークおよび評価プロセスの設計も提案している。
関連論文リスト
- LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models [46.77647640464652]
Chinese Large Language Models (LLMs)は、最近、様々なNLPベンチマークと実世界のアプリケーションで印象的な能力を実証した。
大規模・完全・多目的知識評価ベンチマークLHMKEを提案する。
初等学校から専門的認定試験まで、30の科目をカバーする75の課題に10,465の質問がある。
論文 参考訳(メタデータ) (2024-03-19T10:11:14Z) - ArcMMLU: A Library and Information Science Benchmark for Large Language
Models [25.36473762494066]
本稿では,中国語のライブラリ・アンド・インフォメーション・サイエンス(LIS)ドメインに適したベンチマークであるArcMMLUを紹介する。
このベンチマークは、考古学、データ科学、図書館科学、情報科学の4つの重要なサブドメインにおいて、LLMの知識と推論能力を測定することを目的としている。
総合評価の結果,ほとんどのLLMはArcMMLUで50%以上の精度を達成するが,性能差は顕著であることがわかった。
論文 参考訳(メタデータ) (2023-11-30T16:08:04Z) - Systematic Assessment of Factual Knowledge in Large Language Models [48.75961313441549]
本稿では,知識グラフ(KG)を活用して,大規模言語モデル(LLM)の事実知識を評価する枠組みを提案する。
本フレームワークは,所定のKGに格納された事実から質問の集合と期待された回答を自動的に生成し,これらの質問に答える際のLCMの精度を評価する。
論文 参考訳(メタデータ) (2023-10-18T00:20:50Z) - NuclearQA: A Human-Made Benchmark for Language Models for the Nuclear
Domain [0.0]
NuclearQAは、核領域における言語モデルを評価するための100の質問の人為的なベンチマークである。
さまざまな種類の質問が混ざり合わさって、我々のベンチマークが核領域のモデルを評価することをユニークなものにしていることを示す。
論文 参考訳(メタデータ) (2023-10-17T01:27:20Z) - Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge
Evaluation [61.56563631219381]
我々は、総合的なドメイン知識を評価するために設計された最も包括的な評価スイートであるXiezhiを紹介する。
Xiezhiは、13の被験者から249,587の質問、Xiezhi- SpecialtyとXiezhi-Interdisciplineを伴い、15kの質問を含む516の多様な分野にわたる複数の選択の質問で構成されている。
論文 参考訳(メタデータ) (2023-06-09T09:52:05Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - PoE: a Panel of Experts for Generalized Automatic Dialogue Assessment [58.46761798403072]
モデルベース自動対話評価基準(ADEM)は,複数の領域にわたって良好に機能することが期待される。
大きな進歩にもかかわらず、ある領域でうまく機能するADEMは必ずしも他の領域に一般化するとは限らない。
本稿では,共有トランスフォーマーエンコーダと軽量アダプタの集合からなるPanel of Experts (PoE)ネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-18T02:26:50Z) - DomBERT: Domain-oriented Language Model for Aspect-based Sentiment
Analysis [71.40586258509394]
本研究では、ドメイン内コーパスと関連するドメインコーパスの両方から学習するためのBERTの拡張であるDomBERTを提案する。
アスペクトベース感情分析における課題の整理実験を行い、有望な結果を示す。
論文 参考訳(メタデータ) (2020-04-28T21:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。