論文の概要: SinhalaMMLU: A Comprehensive Benchmark for Evaluating Multitask Language Understanding in Sinhala
- arxiv url: http://arxiv.org/abs/2509.03162v1
- Date: Wed, 03 Sep 2025 09:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.474779
- Title: SinhalaMMLU: A Comprehensive Benchmark for Evaluating Multitask Language Understanding in Sinhala
- Title(参考訳): SinhalaMMLU: Sinhalaにおけるマルチタスク言語理解のための総合ベンチマーク
- Authors: Ashmari Pramodya, Nirasha Nelki, Heshan Shalinda, Chamila Liyanage, Yusuke Sakai, Randil Pushpananda, Ruvan Weerasinghe, Hidetaka Kamigaito, Taro Watanabe,
- Abstract要約: SinhalaMMLUは、Sinhala専用に設計された最初の複数選択質問応答ベンチマークである。
このデータセットには、スリランカの国家カリキュラムに適合する2次教育レベルにまたがる7000以上の質問が含まれている。
SinhalaMMLU 上で26個の LLM を評価し,Claude 3.5 sonnet と GPT-4o がそれぞれ 67% と 62% の最高精度で達成されているのに対して,モデル全体の性能は限定的である。
- 参考スコア(独自算出の注目度): 39.525952729268994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) demonstrate impressive general knowledge and reasoning abilities, yet their evaluation has predominantly focused on global or anglocentric subjects, often neglecting low-resource languages and culturally specific content. While recent multilingual benchmarks attempt to bridge this gap, many rely on automatic translation, which can introduce errors and misrepresent the original cultural context. To address this, we introduce SinhalaMMLU, the first multiple-choice question answering benchmark designed specifically for Sinhala, a low-resource language. The dataset includes over 7,000 questions spanning secondary to collegiate education levels, aligned with the Sri Lankan national curriculum, and covers six domains and 30 subjects, encompassing both general academic topics and culturally grounded knowledge. We evaluate 26 LLMs on SinhalaMMLU and observe that, while Claude 3.5 sonnet and GPT-4o achieve the highest average accuracies at 67% and 62% respectively, overall model performance remains limited. In particular, models struggle in culturally rich domains such as the Humanities, revealing substantial room for improvement in adapting LLMs to low-resource and culturally specific contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、目覚ましい一般知識と推論能力を示しているが、その評価は主に、低リソース言語や文化的に特定の内容を無視した、グローバルまたはアングロセントリックな主題に焦点を当てている。
最近のマルチ言語ベンチマークはこのギャップを埋めようとしているが、多くは自動翻訳に依存しており、エラーを発生させ、元の文化的文脈を誤って表現することができる。
そこで我々は,低リソース言語であるSinhala向けに設計された,最初の複数選択型質問応答ベンチマークであるSinhalaMMLUを紹介した。
このデータセットには、スリランカの国家カリキュラムに適合する2次教育レベルにまたがる7000以上の質問が含まれており、6つのドメインと30の主題をカバーし、一般的な学術的トピックと文化的な基礎知識の両方を含んでいる。
SinhalaMMLU 上で26個の LLM を評価し,Claude 3.5 sonnet と GPT-4o がそれぞれ 67% と 62% の最高精度で達成されているのに対して,モデル全体の性能は限定的である。
特に、モデルは人文科学のような文化的に豊かな領域で苦労し、低資源で文化的に特定の文脈にLLMを適用するための実質的な改善の余地を明らかにしている。
関連論文リスト
- Measuring Hong Kong Massive Multi-Task Language Understanding [8.18541769113546]
香港の言語能力と社会文化的知識を評価するベンチマークであるHKMMLUを紹介する。
最高の性能モデルであるDeepSeek-V3は、MMLUやCMMLUに比べて75%の精度を達成するのに苦労している。
このパフォーマンスギャップは、香港固有の言語と知識ドメインにおけるLLMの能力向上の必要性を強調している。
論文 参考訳(メタデータ) (2025-05-04T16:39:12Z) - Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文 参考訳(メタデータ) (2024-12-04T13:27:09Z) - MILU: A Multi-task Indic Language Understanding Benchmark [7.652738829153342]
我々は,インデクス言語における大規模言語モデルを評価するための総合評価ベンチマークMILUを紹介する。
インド中心のデザインにより、MILUは地域や州レベルの試験の資料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。
オープンな多言語モデルは言語固有の微調整モデルよりも優れており、ランダムなベースラインよりもわずかに優れている。
論文 参考訳(メタデータ) (2024-11-04T19:17:17Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Large Language Models Only Pass Primary School Exams in Indonesia: A
Comprehensive Test on IndoMMLU [31.555098850095817]
IndoMMLUはインドネシアの文化と言語に対する最初のマルチタスク言語理解ベンチマークである。
インドネシアの小学校から大学への入学試験である。
論文 参考訳(メタデータ) (2023-10-07T21:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。