論文の概要: Domain Mastery Benchmark: An Ever-Updating Benchmark for Evaluating
Holistic Domain Knowledge of Large Language Model--A Preliminary Release
- arxiv url: http://arxiv.org/abs/2304.11679v1
- Date: Sun, 23 Apr 2023 15:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 17:05:08.903287
- Title: Domain Mastery Benchmark: An Ever-Updating Benchmark for Evaluating
Holistic Domain Knowledge of Large Language Model--A Preliminary Release
- Title(参考訳): Domain Mastery Benchmark: 大規模言語モデルの全体的ドメイン知識を評価するためのベンチマーク - 予備リリース
- Authors: Zhouhong Gu, Xiaoxuan Zhu, Haoning Ye, Lin Zhang, Zhuozhi Xiong, Zihan
Li, Qianyu He, Sihang Jiang, Hongwei Feng, Yanghua Xiao
- Abstract要約: DomMaは、ドメイン知識の理解に基づいてLarge Language Models(LLM)をテストすることを目標としている。
広範なドメインカバレッジ、大規模なデータボリューム、中国の112の第一級対象分類に基づいた継続的に更新されたデータセットを備えている。
- 参考スコア(独自算出の注目度): 13.603414598813938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain knowledge refers to the in-depth understanding, expertise, and
familiarity with a specific subject, industry, field, or area of special
interest. The existing benchmarks are all lack of an overall design for domain
knowledge evaluation. Holding the belief that the real ability of domain
language understanding can only be fairly evaluated by an comprehensive and
in-depth benchmark, we introduces the Domma, a Domain Mastery Benchmark. DomMa
targets at testing Large Language Models (LLMs) on their domain knowledge
understanding, it features extensive domain coverage, large data volume, and a
continually updated data set based on Chinese 112 first-level subject
classifications. DomMa consist of 100,000 questions in both Chinese and English
sourced from graduate entrance examinations and undergraduate exams in Chinese
college. We have also propose designs to make benchmark and evaluation process
more suitable to LLMs.
- Abstract(参考訳): ドメイン知識(英: domain knowledge)とは、特定の主題、産業、分野、または専門分野に対する深い理解、専門知識、および親密さをいう。
既存のベンチマークはすべて、ドメイン知識評価のための全体的な設計の欠如です。
ドメイン言語理解の本当の能力は包括的かつ深いベンチマークによってのみ十分に評価できるという信念を持ちながら、ドメイン熟達のベンチマークであるdommaを紹介します。
DomMaは、ドメイン知識理解に基づいてLarge Language Models(LLM)をテストすることを目的としており、広範なドメインカバレッジ、大きなデータボリューム、中国の112の第一級対象分類に基づく継続的に更新されたデータセットを備えている。
dommaは中国語と英語の両方で10万の質問から成り、中国の大学での大学院受験と学部受験から派生している。
また,LLMに適合するベンチマークおよび評価プロセスの設計も提案している。
関連論文リスト
- Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - Pretraining and Updates of Domain-Specific LLM: A Case Study in the Japanese Business Domain [4.133477882188227]
本稿では,日本のビジネスドメイン固有のLLMのトレーニングと評価から得られた知見について述べる。
事前訓練されたモデルとビジネスドメインのベンチマークは、さらなる研究をサポートするために公開されています。
論文 参考訳(メタデータ) (2024-04-12T06:21:48Z) - Systematic Assessment of Factual Knowledge in Large Language Models [48.75961313441549]
本稿では,知識グラフ(KG)を活用して,大規模言語モデル(LLM)の事実知識を評価する枠組みを提案する。
本フレームワークは,所定のKGに格納された事実から質問の集合と期待された回答を自動的に生成し,これらの質問に答える際のLCMの精度を評価する。
論文 参考訳(メタデータ) (2023-10-18T00:20:50Z) - NuclearQA: A Human-Made Benchmark for Language Models for the Nuclear
Domain [0.0]
NuclearQAは、核領域における言語モデルを評価するための100の質問の人為的なベンチマークである。
さまざまな種類の質問が混ざり合わさって、我々のベンチマークが核領域のモデルを評価することをユニークなものにしていることを示す。
論文 参考訳(メタデータ) (2023-10-17T01:27:20Z) - Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge
Evaluation [61.56563631219381]
我々は、総合的なドメイン知識を評価するために設計された最も包括的な評価スイートであるXiezhiを紹介する。
Xiezhiは、13の被験者から249,587の質問、Xiezhi- SpecialtyとXiezhi-Interdisciplineを伴い、15kの質問を含む516の多様な分野にわたる複数の選択の質問で構成されている。
論文 参考訳(メタデータ) (2023-06-09T09:52:05Z) - Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey [100.24095818099522]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させた。
広範囲のアプリケーションに対して、非常に有用でタスクに依存しない基盤を提供する。
しかし、特定の領域における洗練された問題を解決するために直接LLMを適用することは、多くのハードルを満たす。
論文 参考訳(メタデータ) (2023-05-30T03:00:30Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - DomBERT: Domain-oriented Language Model for Aspect-based Sentiment
Analysis [71.40586258509394]
本研究では、ドメイン内コーパスと関連するドメインコーパスの両方から学習するためのBERTの拡張であるDomBERTを提案する。
アスペクトベース感情分析における課題の整理実験を行い、有望な結果を示す。
論文 参考訳(メタデータ) (2020-04-28T21:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。