Fugu-MT 論文翻訳(概要): TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages

論文の概要: TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages

arxiv url: http://arxiv.org/abs/2502.11020v1
Date: Sun, 16 Feb 2025 07:07:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.799118
Title: TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages
Title（参考訳）: TUMLU: トルコ語のための統一されたネイティブ言語理解ベンチマーク
Authors: Jafar Isbarov, Arofat Akhundjanova, Mammad Hajili, Kavsar Huseynova, Dmitry Gaynullin, Anar Rzayev, Osman Tursun, Ilshat Saetov, Rinat Kharisov, Saule Belginova, Ariana Kenbayeva, Amina Alisheva, Aizirek Turdubaeva, Abdullatif Köksal, Samir Rustamov, Duygu Ataman,
Abstract要約: 本稿では,テュルク語MMLUのTUMLUとTUMLU-miniの2つのベンチマークを提案する。 TUMLU-miniは、アゼルバイジャン語、クリミア・タタール語、カラカルパック語、カザフ語、タタール語、トルコ語、ウイグル語、ウズベク語で11人の学者からなる中・高校レベルの質問からなる。また、より簡潔でバランスの取れた、手作業によるデータセットのサブセットであるTUMLU-miniも提示します。
参考スコア（独自算出の注目度）: 2.115206401188031
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Being able to thoroughly assess massive multi-task language understanding (MMLU) capabilities is essential for advancing the applicability of multilingual language models. However, preparing such benchmarks in high quality native language is often costly and therefore limits the representativeness of evaluation datasets. While recent efforts focused on building more inclusive MMLU benchmarks, these are conventionally built using machine translation from high-resource languages, which may introduce errors and fail to account for the linguistic and cultural intricacies of the target languages. In this paper, we address the lack of native language MMLU benchmark especially in the under-represented Turkic language family with distinct morphosyntactic and cultural characteristics. We propose two benchmarks for Turkic language MMLU: TUMLU is a comprehensive, multilingual, and natively developed language understanding benchmark specifically designed for Turkic languages. It consists of middle- and high-school level questions spanning 11 academic subjects in Azerbaijani, Crimean Tatar, Karakalpak, Kazakh, Tatar, Turkish, Uyghur, and Uzbek. We also present TUMLU-mini, a more concise, balanced, and manually verified subset of the dataset. Using this dataset, we systematically evaluate a diverse range of open and proprietary multilingual large language models (LLMs), including Claude, Gemini, GPT, and LLaMA, offering an in-depth analysis of their performance across different languages, subjects, and alphabets. To promote further research and development in multilingual language understanding, we release TUMLU-mini and all corresponding evaluation scripts.
Abstract（参考訳）: マルチタスク言語理解能力(MMLU)を徹底的に評価できることは、多言語言語モデルの適用性を向上させる上で不可欠である。しかし、このようなベンチマークを高品質なネイティブ言語で作成することは、しばしばコストがかかるため、評価データセットの表現性が制限される。近年、より包括的なMMLUベンチマークの構築に焦点が当てられているが、これらは従来、高リソース言語からの機械翻訳を用いて構築されており、エラーが発生し、対象言語の言語的・文化的複雑さを考慮できない可能性がある。本稿では,非表現のテュルク語族における母語MMLUベンチマークの欠如に対処する。 TUMLUは、トルコ語に特化した包括的、多言語的、ネイティブに開発された言語理解ベンチマークである。アゼルバイジャン語、クリミア・タタール語、カラカルパク語、カザフ語、タタール語、トルコ語、ウイグル語、ウズベク語で11人の学者からなる中・高校レベルの質問からなる。また、より簡潔でバランスの取れた、手作業によるデータセットのサブセットであるTUMLU-miniも提示します。本データセットを用いて,Claude,Gemini,GPT,LLaMAを含む,オープンおよびプロプライエタリな多言語大言語モデル(LLM)を体系的に評価し,その性能をさまざまな言語,主題,アルファベットにわたって詳細に分析する。多言語言語理解におけるさらなる研究と開発を促進するため、TUMLU-miniとそれに対応するすべての評価スクリプトをリリースする。

関連論文リスト

MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding [2.062076715606512]
インド亜大陸の15億人以上の人々によって知られており、Indic言語は自然言語処理(NLP)の研究に固有の課題と機会を提示している。 IndicMMLU-Proは、Indic言語全体にわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
論文参考訳（メタデータ） (2025-01-27T03:19:03Z)
All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文参考訳（メタデータ） (2024-11-25T15:44:42Z)
MILU: A Multi-task Indic Language Understanding Benchmark [7.652738829153342]
我々は,インデクス言語における大規模言語モデルを評価するための総合評価ベンチマークMILUを紹介する。インド中心のデザインにより、MILUは地域や州レベルの試験の資料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。オープンな多言語モデルは言語固有の微調整モデルよりも優れており、ランダムなベースラインよりもわずかに優れている。
論文参考訳（メタデータ） (2024-11-04T19:17:17Z)
TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish [54.51310112013655]
本稿では,最初のマルチタスク,複数選択のトルコQAベンチマーク,トルコMMLUを紹介する。トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。多言語オープンソース(Gemma、Llama、MT5)、クローズドソース(GPT 4o、Claude、Gemini)、トルコ適応モデル(Trendyolなど)を含む20以上のLLMを評価した。
論文参考訳（メタデータ） (2024-07-17T08:28:55Z)
MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。 MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。 MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文参考訳（メタデータ） (2024-04-07T15:23:28Z)
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文参考訳（メタデータ） (2024-02-21T04:42:41Z)
CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。 CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文参考訳（メタデータ） (2022-11-04T12:56:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。