Fugu-MT 論文翻訳(概要): GreekMMLU: A Native-Sourced Multitask Benchmark for Evaluating Language Models in Greek

論文の概要: GreekMMLU: A Native-Sourced Multitask Benchmark for Evaluating Language Models in Greek

arxiv url: http://arxiv.org/abs/2602.05150v1
Date: Thu, 05 Feb 2026 00:12:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-06 18:49:08.678698
Title: GreekMMLU: A Native-Sourced Multitask Benchmark for Evaluating Language Models in Greek
Title（参考訳）: GreekMMLU:ギリシャ語で言語モデルを評価するためのネイティブソースのマルチタスクベンチマーク
Authors: Yang Zhang, Mersin Konomi, Christos Xypolopoulos, Konstantinos Divriotis, Konstantinos Skianis, Giannis Nikolentzos, Giorgos Stamou, Guokan Shang, Michalis Vazirgiannis,
Abstract要約: GreekMMLUはギリシャ語で大規模言語理解のためのネイティブソースのベンチマークである。我々は16,857個のサンプルと4,948個のサンプルをプライベートなリーダーボードにリリースし、堅牢で汚染に強い評価を可能にした。
参考スコア（独自算出の注目度）: 27.324768282418102
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are commonly trained on multilingual corpora that include Greek, yet reliable evaluation benchmarks for Greek-particularly those based on authentic, native-sourced content-remain limited. Existing datasets are often machine-translated from English, failing to capture Greek linguistic and cultural characteristics. We introduce GreekMMLU, a native-sourced benchmark for massive multitask language understanding in Greek, comprising 21,805 multiple-choice questions across 45 subject areas, organized under a newly defined subject taxonomy and annotated with educational difficulty levels spanning primary to professional examinations. All questions are sourced or authored in Greek from academic, professional, and governmental exams. We publicly release 16,857 samples and reserve 4,948 samples for a private leaderboard to enable robust and contamination-resistant evaluation. Evaluations of over 80 open- and closed-source LLMs reveal substantial performance gaps between frontier and open-weight models, as well as between Greek-adapted models and general multilingual ones. Finally, we provide a systematic analysis of factors influencing performance-including model scale, adaptation, and prompting-and derive insights for improving LLM capabilities in Greek.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ギリシャ語を含む多言語コーパスで一般的に訓練されている。既存のデータセットは、しばしば英語から機械翻訳され、ギリシア語の言語学的・文化的特徴を捉えられなかった。我々は,ギリシャ語で大規模マルチタスク言語理解のためのネイティブソースベンチマークであるギリシャ語MMLUを紹介した。全ての質問は、学術、専門、政府による試験からギリシャ語で作成または作成される。 16,857個のサンプルと4,948個のサンプルを公開し、ロバストで汚染耐性のある評価を可能にする。 80以上のオープンソースおよびクローズドソース LLM の評価は、フロンティアモデルとオープンウェイトモデル、ギリシャ適応モデルと一般的な多言語モデルの間に大きなパフォーマンスギャップを生じさせる。最後に、ギリシャ語におけるLLM能力向上のための性能・モデルスケール・適応・帰納的洞察に影響を及ぼす要因を体系的に分析する。

関連論文リスト

SinhalaMMLU: A Comprehensive Benchmark for Evaluating Multitask Language Understanding in Sinhala [39.525952729268994]
SinhalaMMLUは、Sinhala専用に設計された最初の複数選択質問応答ベンチマークである。このデータセットには、スリランカの国家カリキュラムに適合する2次教育レベルにまたがる7000以上の質問が含まれている。 SinhalaMMLU 上で26個の LLM を評価し,Claude 3.5 sonnet と GPT-4o がそれぞれ 67% と 62% の最高精度で達成されているのに対して,モデル全体の性能は限定的である。
論文参考訳（メタデータ） (2025-09-03T09:22:39Z)
Cetvel: A Unified Benchmark for Evaluating Language Understanding, Generation and Cultural Capacity of LLMs for Turkish [9.111556632499472]
Cetvelはトルコの大規模言語モデル(LLM)を評価するために設計されたベンチマークである。トルコ語の言語的・文化的豊かさを反映したコンテンツを確保するための差別的・生成的なタスクを幅広く組み合わせている。
論文参考訳（メタデータ） (2025-08-22T14:42:50Z)
GRILE: A Benchmark for Grammar Reasoning and Explanation in Romanian LLMs [44.99833362998488]
ルーマニアの受験試験から採取した1,151件の多重選択質問の最初のオープンベンチマークであるGRILEを提示する。 GRILEは、7つの最先端多言語とルーマニア固有のLLMの相補的な2つの能力を探索することを可能にする。
論文参考訳（メタデータ） (2025-08-19T21:27:06Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。 MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。 MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文参考訳（メタデータ） (2024-04-07T15:23:28Z)
Pragmatic Competence Evaluation of Large Language Models for the Korean Language [0.6757476692230009]
本研究では,Large Language Models (LLMs) が,特に韓国語における実践的視点から,文脈依存表現をいかによく理解しているかを評価する。自動評価にはMultiple-Choice Questions(MCQ)と、専門家によるOEQ(Open-Ended Questions)の両方を用いる。
論文参考訳（メタデータ） (2024-03-19T12:21:20Z)
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文参考訳（メタデータ） (2024-02-21T04:42:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。