論文の概要: KazMMLU: Evaluating Language Models on Kazakh, Russian, and Regional Knowledge of Kazakhstan
- arxiv url: http://arxiv.org/abs/2502.12829v1
- Date: Tue, 18 Feb 2025 12:48:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:49.777243
- Title: KazMMLU: Evaluating Language Models on Kazakh, Russian, and Regional Knowledge of Kazakhstan
- Title(参考訳): KazMMLU:カザフ語、ロシア語、カザフスタンの地域知識に基づく言語モデルの評価
- Authors: Mukhammed Togmanov, Nurdaulet Mukhituly, Diana Turmakhan, Jonibek Mansurov, Maiya Goloburda, Akhmed Sakip, Zhuohan Xie, Yuxia Wang, Bekassyl Syzdykov, Nurkhan Laiyk, Alham Fikri Aji, Ekaterina Kochmar, Preslav Nakov, Fajri Koto,
- Abstract要約: KazMMLUは、カザフ語用に特別に設計された最初のMMLUスタイルのデータセットである。
STEM、人文科学、社会科学など、様々な教育レベルをカバーする23,000の質問が含まれている。
データセットには10,969のカザフスタン質問と12,031のロシア質問が含まれている。
- 参考スコア(独自算出の注目度): 35.02482209366835
- License:
- Abstract: Despite having a population of twenty million, Kazakhstan's culture and language remain underrepresented in the field of natural language processing. Although large language models (LLMs) continue to advance worldwide, progress in Kazakh language has been limited, as seen in the scarcity of dedicated models and benchmark evaluations. To address this gap, we introduce KazMMLU, the first MMLU-style dataset specifically designed for Kazakh language. KazMMLU comprises 23,000 questions that cover various educational levels, including STEM, humanities, and social sciences, sourced from authentic educational materials and manually validated by native speakers and educators. The dataset includes 10,969 Kazakh questions and 12,031 Russian questions, reflecting Kazakhstan's bilingual education system and rich local context. Our evaluation of several state-of-the-art multilingual models (Llama-3.1, Qwen-2.5, GPT-4, and DeepSeek V3) demonstrates substantial room for improvement, as even the best-performing models struggle to achieve competitive performance in Kazakh and Russian. These findings underscore significant performance gaps compared to high-resource languages. We hope that our dataset will enable further research and development of Kazakh-centric LLMs. Data and code will be made available upon acceptance.
- Abstract(参考訳): 人口は2000万人であるにもかかわらず、カザフスタンの文化と言語は、自然言語処理の分野では過小評価されている。
大きな言語モデル(LLM)は世界中で進歩を続けているが、専用のモデルやベンチマーク評価の不足に見られるように、カザフ語での進歩は限られている。
このギャップに対処するため、我々はKazakh言語用に特別に設計された最初のMMLUスタイルのデータセットであるKazMMLUを紹介した。
KazMMLUは23,000の質問からなり、STEM、人文科学、社会科学など様々な教育レベルをカバーする。
データセットには、カザフスタンのバイリンガル教育システムと豊かな地域環境を反映した10,969のカザフ語質問と12,031のロシア語質問が含まれている。
複数の最先端多言語モデル (Llama-3.1, Qwen-2.5, GPT-4, DeepSeek V3) の評価は, カザフ語とロシア語の競争性能の達成に苦しむ最高の性能モデルでさえも改善の余地があることを証明している。
これらの知見は, ハイソース言語と比較して, 顕著な性能差を浮き彫りにした。
我々は、我々のデータセットがカザフ語中心のLLMのさらなる研究と開発を可能にすることを期待している。
データとコードは受け入れ次第利用可能になる。
関連論文リスト
- Qorgau: Evaluating LLM Safety in Kazakh-Russian Bilingual Contexts [40.0358736497799]
大規模言語モデル(LLM)は有害なコンテンツを生成する可能性があることが知られている。
本稿では,カザフ語とロシア語の安全性評価に特化して設計された新しいデータセットであるQorgauを紹介する。
論文 参考訳(メタデータ) (2025-02-19T11:33:22Z) - TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages [2.115206401188031]
本稿では,テュルク語MMLUのTUMLUとTUMLU-miniの2つのベンチマークを提案する。
TUMLU-miniは、アゼルバイジャン語、クリミア・タタール語、カラカルパック語、カザフ語、タタール語、トルコ語、ウイグル語、ウズベク語で11人の学者からなる中・高校レベルの質問からなる。
また、より簡潔でバランスの取れた、手作業によるデータセットのサブセットであるTUMLU-miniも提示します。
論文 参考訳(メタデータ) (2025-02-16T07:07:38Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages [64.10040374077994]
SEACrowdは3つのモダリティにまたがる1000近い言語で標準化されたコーパスを統合する共同イニシアチブである。
私たちは、13のタスクにわたる36のネイティブ言語上のAIモデルの品質を評価し、SEAの現在のAI状況に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-14T15:23:39Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z) - KazakhTTS2: Extending the Open-Source Kazakh TTS Corpus With More Data,
Speakers, and Topics [4.859986264602551]
我々は、以前リリースした Kazakh text-to-speech (KazakhTTS) 合成コーパスの拡張版を提示する。
新しいKazakhTTS2コーパスでは、全体的なサイズは93時間から271時間に向上した。
講演者の数は2人から5人(女性3人、男性2人)に増えた。
論文 参考訳(メタデータ) (2022-01-15T06:54:30Z) - A Study of Multilingual End-to-End Speech Recognition for Kazakh,
Russian, and English [5.094176584161206]
我々は、カザフスタンで使われている3つの言語(カザフ語、ロシア語、英語)に対して、1つのエンドツーエンド(E2E)自動音声認識(ASR)モデルを訓練する。
本稿ではまず,Transformer ネットワークに基づく多言語 E2E ASR の開発について述べる。
論文 参考訳(メタデータ) (2021-08-03T04:04:01Z) - KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset [4.542831770689362]
本稿では,世界中の1300万人以上が話す低リソース言語であるKazakhの高品質なオープンソース音声合成データセットについて紹介する。
このデータセットは、2人のプロの話者が話した約91時間の録音音声から成り立っている。
これは、アカデミックと産業の両方で、カザフスタンのテキスト音声アプリケーションを促進するために開発された、初めて公開された大規模なデータセットである。
論文 参考訳(メタデータ) (2021-04-17T05:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。