論文の概要: KMMLU: Measuring Massive Multitask Language Understanding in Korean
- arxiv url: http://arxiv.org/abs/2402.11548v1
- Date: Sun, 18 Feb 2024 11:41:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 20:35:05.441644
- Title: KMMLU: Measuring Massive Multitask Language Understanding in Korean
- Title(参考訳): KMMLU:韓国における大規模マルチタスク言語理解の測定
- Authors: Guijin Son and Hanwool Lee and Sungdong Kim and Seungone Kim and
Niklas Muennighoff and Taekyoon Choi and Cheonbok Park and Kang Min Yoo and
Stella Biderman
- Abstract要約: KMMLUは、人文科学からSTEMまで、45科目にわたる35,030名のエキスパートレベルの多重選択質問を備えた、韓国の新しいベンチマークである。
既存の英語のベンチマークから翻訳された以前の韓国のベンチマークとは異なり、KMMLUはオリジナルの韓国の試験から収集される。
最高の一般公開モデルはKMMLUで50.54%、平均62.6%よりもはるかに低い。
- 参考スコア(独自算出の注目度): 33.2692410311354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose KMMLU, a new Korean benchmark with 35,030 expert-level
multiple-choice questions across 45 subjects ranging from humanities to STEM.
Unlike previous Korean benchmarks that are translated from existing English
benchmarks, KMMLU is collected from original Korean exams, capturing linguistic
and cultural aspects of the Korean language. We test 26 publically available
and proprietary LLMs, identifying significant room for improvement. The best
publicly available model achieves 50.54% on KMMLU, far below the average human
performance of 62.6%. This model was primarily trained for English and Chinese,
not Korean. Current LLMs tailored to Korean, such as Polyglot-Ko, perform far
worse. Surprisingly, even the most capable proprietary LLMs, e.g., GPT-4 and
HyperCLOVA X, achieve 59.95% and 53.40%, respectively. This suggests that
further work is needed to improve Korean LLMs, and KMMLU offers the right tool
to track this progress. We make our dataset publicly available on the Hugging
Face Hub and integrate the benchmark into EleutherAI's Language Model
Evaluation Harness.
- Abstract(参考訳): 人文科学からstemまで,45名を対象に,35,030名の専門家レベルのマルチチョイス質問を持つ韓国人ベンチマークkmmluを提案する。
既存の英語のベンチマークから翻訳された以前の韓国のベンチマークとは異なり、KMMLUは韓国語の言語的・文化的側面を捉えた最初の韓国の試験から収集される。
公開可能な26のLLMをテストし、改善の余地を特定した。
最高の一般公開モデルはKMMLUで50.54%、平均62.6%よりもはるかに低い。
このモデルは韓国語ではなく、主に英語と中国語で訓練された。
韓国のポリグロット・コ(Polyglot-Ko)のような現在のLLMは、はるかに悪化している。
驚くべきことに、GPT-4やHyperCLOVA Xのような最も有能なLLMでさえそれぞれ59.95%と53.40%を達成している。
これは韓国のLLMを改善するためにさらなる作業が必要であることを示唆しており、KMMLUはこの進捗を追跡できる適切なツールを提供している。
私たちはデータセットをHugging Face Hubで公開し、ベンチマークをEleutherAIのLanguage Model Evaluation Harnessに統合します。
関連論文リスト
- JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.83457341009046]
JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。
CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。
両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
論文 参考訳(メタデータ) (2024-10-22T17:59:56Z) - Open Ko-LLM Leaderboard2: Bridging Foundational and Practical Evaluation for Korean LLMs [7.924819546105335]
我々は、以前のOpen Ko-LLM Leaderboardの改良版であるOpen Ko-LLM Leaderboard2を提案する。
オリジナルのベンチマークは、現実の能力とより密に整合した新しいタスクに完全に置き換えられている。
韓国語の特徴をよりよく反映するために、4つの新しい韓国語ベンチマークが導入されている。
論文 参考訳(メタデータ) (2024-10-16T10:49:22Z) - RedWhale: An Adapted Korean LLM Through Efficient Continual Pretraining [0.0]
韓国語処理に特化したモデルであるRedWhaleを紹介する。
RedWhaleは、韓国の包括的コーパス前処理パイプラインを含む効率的な継続事前訓練アプローチを用いて開発されている。
実験の結果、RedWhaleは韓国のNLPベンチマークで他の主要なモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T02:49:41Z) - GECKO: Generative Language Model for English, Code and Korean [0.02046223849354785]
韓国語と英語に最適化された二言語大言語モデル(LLM)であるGECKOとプログラミング言語を紹介する。
GECKOはLLaMAアーキテクチャを採用した韓国語と英語のバランスよく高品質なコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2024-05-24T15:30:41Z) - HyperCLOVA X Technical Report [119.94633129762133]
韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xを紹介する。
HyperCLOVA Xは韓国語、英語、コードデータのバランスの取れた混合でトレーニングされ、その後、高品質な人間アノテーション付きデータセットによる命令チューニングが行われた。
このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2024-04-02T13:48:49Z) - Efficient and Effective Vocabulary Expansion Towards Multilingual Large
Language Models [9.359647125218359]
本報告では,韓国語による大規模言語モデルの適応である texttEEVE-Korean-v1.0 を紹介する。
我々の手法は、わずか20億のトークンで非英語の習熟度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-02-22T17:12:39Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - KoreALBERT: Pretraining a Lite BERT Model for Korean Language
Understanding [6.414554168135807]
KoreALBERTは韓国語理解のための単言語ALBERTモデルである。
トレーニング済みのPruALBERTは、6つの異なるNLUタスクでBERTよりも優れています。
論文 参考訳(メタデータ) (2021-01-27T12:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。