論文の概要: GreekMMLU: A Native-Sourced Multitask Benchmark for Evaluating Language Models in Greek
- arxiv url: http://arxiv.org/abs/2602.05150v1
- Date: Thu, 05 Feb 2026 00:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.678698
- Title: GreekMMLU: A Native-Sourced Multitask Benchmark for Evaluating Language Models in Greek
- Title(参考訳): GreekMMLU:ギリシャ語で言語モデルを評価するためのネイティブソースのマルチタスクベンチマーク
- Authors: Yang Zhang, Mersin Konomi, Christos Xypolopoulos, Konstantinos Divriotis, Konstantinos Skianis, Giannis Nikolentzos, Giorgos Stamou, Guokan Shang, Michalis Vazirgiannis,
- Abstract要約: GreekMMLUはギリシャ語で大規模言語理解のためのネイティブソースのベンチマークである。
我々は16,857個のサンプルと4,948個のサンプルをプライベートなリーダーボードにリリースし、堅牢で汚染に強い評価を可能にした。
- 参考スコア(独自算出の注目度): 27.324768282418102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are commonly trained on multilingual corpora that include Greek, yet reliable evaluation benchmarks for Greek-particularly those based on authentic, native-sourced content-remain limited. Existing datasets are often machine-translated from English, failing to capture Greek linguistic and cultural characteristics. We introduce GreekMMLU, a native-sourced benchmark for massive multitask language understanding in Greek, comprising 21,805 multiple-choice questions across 45 subject areas, organized under a newly defined subject taxonomy and annotated with educational difficulty levels spanning primary to professional examinations. All questions are sourced or authored in Greek from academic, professional, and governmental exams. We publicly release 16,857 samples and reserve 4,948 samples for a private leaderboard to enable robust and contamination-resistant evaluation. Evaluations of over 80 open- and closed-source LLMs reveal substantial performance gaps between frontier and open-weight models, as well as between Greek-adapted models and general multilingual ones. Finally, we provide a systematic analysis of factors influencing performance-including model scale, adaptation, and prompting-and derive insights for improving LLM capabilities in Greek.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ギリシャ語を含む多言語コーパスで一般的に訓練されている。
既存のデータセットは、しばしば英語から機械翻訳され、ギリシア語の言語学的・文化的特徴を捉えられなかった。
我々は,ギリシャ語で大規模マルチタスク言語理解のためのネイティブソースベンチマークであるギリシャ語MMLUを紹介した。
全ての質問は、学術、専門、政府による試験からギリシャ語で作成または作成される。
16,857個のサンプルと4,948個のサンプルを公開し、ロバストで汚染耐性のある評価を可能にする。
80以上のオープンソースおよびクローズドソース LLM の評価は、フロンティアモデルとオープンウェイトモデル、ギリシャ適応モデルと一般的な多言語モデルの間に大きなパフォーマンスギャップを生じさせる。
最後に、ギリシャ語におけるLLM能力向上のための性能・モデルスケール・適応・帰納的洞察に影響を及ぼす要因を体系的に分析する。
関連論文リスト
- Challenging the Abilities of Large Language Models in Italian: a Community Initiative [63.94242079171895]
The Abilities of LAnguage Models in ITAlian (CALAMITA)は、イタリアにおける大規模共同ベンチマークイニシアチブである。
学術、産業、公共部門から80人以上のコントリビュータを集め、多様なタスクの設計、文書化、評価を行っている。
我々は,4つのオープンウェイトLDMの結果を報告し,能力の体系的強度と弱点を強調した。
論文 参考訳(メタデータ) (2025-12-04T12:50:29Z) - SinhalaMMLU: A Comprehensive Benchmark for Evaluating Multitask Language Understanding in Sinhala [39.525952729268994]
SinhalaMMLUは、Sinhala専用に設計された最初の複数選択質問応答ベンチマークである。
このデータセットには、スリランカの国家カリキュラムに適合する2次教育レベルにまたがる7000以上の質問が含まれている。
SinhalaMMLU 上で26個の LLM を評価し,Claude 3.5 sonnet と GPT-4o がそれぞれ 67% と 62% の最高精度で達成されているのに対して,モデル全体の性能は限定的である。
論文 参考訳(メタデータ) (2025-09-03T09:22:39Z) - Cetvel: A Unified Benchmark for Evaluating Language Understanding, Generation and Cultural Capacity of LLMs for Turkish [9.111556632499472]
Cetvelはトルコの大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
トルコ語の言語的・文化的豊かさを反映したコンテンツを確保するための差別的・生成的なタスクを幅広く組み合わせている。
論文 参考訳(メタデータ) (2025-08-22T14:42:50Z) - GRILE: A Benchmark for Grammar Reasoning and Explanation in Romanian LLMs [44.99833362998488]
ルーマニアの受験試験から採取した1,151件の多重選択質問の最初のオープンベンチマークであるGRILEを提示する。
GRILEは、7つの最先端多言語とルーマニア固有のLLMの相補的な2つの能力を探索することを可能にする。
論文 参考訳(メタデータ) (2025-08-19T21:27:06Z) - KoBALT: Korean Benchmark For Advanced Linguistic Tasks [0.6971903955510721]
KoBALT (Korean Benchmark for Advanced Linguistic Tasks) は700の質問からなる言語的に動機付けられたベンチマークである。
韓国語における大規模言語モデル(LLM)の評価を推し進めるために設計された。
韓国の標準コーパスとn-gramの重複が最小限に抑えられた専門家による言語的動機付けの質問スイートを導入している。
論文 参考訳(メタデータ) (2025-05-22T02:03:07Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish [54.51310112013655]
本稿では,最初のマルチタスク,複数選択のトルコQAベンチマーク,トルコMMLUを紹介する。
トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。
多言語オープンソース(Gemma、Llama、MT5)、クローズドソース(GPT 4o、Claude、Gemini)、トルコ適応モデル(Trendyolなど)を含む20以上のLLMを評価した。
論文 参考訳(メタデータ) (2024-07-17T08:28:55Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - Pragmatic Competence Evaluation of Large Language Models for the Korean Language [0.6757476692230009]
本研究では,Large Language Models (LLMs) が,特に韓国語における実践的視点から,文脈依存表現をいかによく理解しているかを評価する。
自動評価にはMultiple-Choice Questions(MCQ)と、専門家によるOEQ(Open-Ended Questions)の両方を用いる。
論文 参考訳(メタデータ) (2024-03-19T12:21:20Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。