論文の概要: From KMMLU-Redux to KMMLU-Pro: A Professional Korean Benchmark Suite for LLM Evaluation
- arxiv url: http://arxiv.org/abs/2507.08924v2
- Date: Fri, 18 Jul 2025 09:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 12:36:33.490353
- Title: From KMMLU-Redux to KMMLU-Pro: A Professional Korean Benchmark Suite for LLM Evaluation
- Title(参考訳): KMMLU-ReduxからKMMLU-Proへ:LLM評価のための韓国のプロフェッショナルベンチマークスイート
- Authors: Seokhee Hong, Sunkyoung Kim, Guijin Son, Soyeon Kim, Yeonjung Hong, Jinsik Lee,
- Abstract要約: 韓国のエキスパートレベルのベンチマークを2つ導入する。
既存のKMMLUから再構築されたKMMLU-Reduxは、韓国技術資格試験からの質問で構成されている。
KMMLU-Proは韓国の専門知識を反映した韓国の専門資格試験に基づいている。
- 参考スコア(独自算出の注目度): 3.7217185777150497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of Large Language Models (LLMs) requires robust benchmarks that encompass not only academic domains but also industrial fields to effectively evaluate their applicability in real-world scenarios. In this paper, we introduce two Korean expert-level benchmarks. KMMLU-Redux, reconstructed from the existing KMMLU, consists of questions from the Korean National Technical Qualification exams, with critical errors removed to enhance reliability. KMMLU-Pro is based on Korean National Professional Licensure exams to reflect professional knowledge in Korea. Our experiments demonstrate that these benchmarks comprehensively represent industrial knowledge in Korea. We release our dataset publicly available.
- Abstract(参考訳): LLM(Large Language Models)の開発には、学術分野だけでなく産業分野も含む堅牢なベンチマークが必要である。
本稿では,韓国のエキスパートレベルのベンチマークを2つ紹介する。
既存のKMMLUから再構築されたKMMLU-Reduxは、信頼性を高めるために致命的なエラーを除去した韓国の技術資格試験からの質問で構成されている。
KMMLU-Proは韓国の専門知識を反映した韓国の専門資格試験に基づいている。
これらのベンチマークは,韓国の産業知識を包括的に表している。
データセットを公開しています。
関連論文リスト
- Thunder-LLM: Efficiently Adapting LLMs to Korean with Minimal Resources [5.341994281991984]
本稿では, 既存の英語 LLM を低予算シナリオで韓国語に適応させる手法を提案する。
韓国のデータセットを収集し、データを前処理し、モデルをトレーニングし、下流のベンチマークを作成し、評価を行う。
我々の新しいバイリンガルモデルであるThunder-LLMとThunder-LLM-Insは、最小限のデータと計算資源を生かしながら、最先端モデルと比較して韓国の優れた性能を実現する。
論文 参考訳(メタデータ) (2025-06-18T17:33:51Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - MME-Industry: A Cross-Industry Multimodal Evaluation Benchmark [20.642661835794975]
産業環境におけるMLLMの評価に特化して設計された新しいベンチマークであるMME-Industryを紹介する。
ベンチマークは21の異なるドメインを含み、1ドメインにつき50の質問と回答のペアが1050である。
ベンチマークの中国語版と英語版の両方を提供し、これらの言語間でMLLMの能力の比較分析を可能にする。
論文 参考訳(メタデータ) (2025-01-28T03:56:17Z) - Open Ko-LLM Leaderboard2: Bridging Foundational and Practical Evaluation for Korean LLMs [7.924819546105335]
我々は、以前のOpen Ko-LLM Leaderboardの改良版であるOpen Ko-LLM Leaderboard2を提案する。
オリジナルのベンチマークは、現実の能力とより密に整合した新しいタスクに完全に置き換えられている。
韓国語の特徴をよりよく反映するために、4つの新しい韓国語ベンチマークが導入されている。
論文 参考訳(メタデータ) (2024-10-16T10:49:22Z) - Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。
この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。
ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文 参考訳(メタデータ) (2024-06-20T04:35:59Z) - GECKO: Generative Language Model for English, Code and Korean [0.02046223849354785]
韓国語と英語に最適化された二言語大言語モデル(LLM)であるGECKOとプログラミング言語を紹介する。
GECKOはLLaMAアーキテクチャを採用した韓国語と英語のバランスよく高品質なコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2024-05-24T15:30:41Z) - KMMLU: Measuring Massive Multitask Language Understanding in Korean [32.06346608507584]
KMMLUは、人文科学からSTEMまで、45科目にわたる35,030名のエキスパートレベルの多重選択質問を備えた、韓国の新しいベンチマークである。
以前の韓国のベンチマークは既存の英語のベンチマークから翻訳されるが、KMMLUはオリジナルの韓国の試験から収集される。
論文 参考訳(メタデータ) (2024-02-18T11:41:07Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。