Fugu-MT 論文翻訳(概要): Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation

論文の概要: Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation

arxiv url: http://arxiv.org/abs/2501.00593v1
Date: Tue, 31 Dec 2024 18:43:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 16:54:31.839992
Title: Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation
Title（参考訳）: トルコのNLPにおける設定基準:大規模言語モデル評価のためのTR-MMLU
Authors: M. Ali Bayram, Ali Arda Fincan, Ahmet Semih G"um"uş, Banu Diri, Savaş Yıldırım, "Oner Aytaş,
Abstract要約: トルコ語MMLU(TR-MMLU)ベンチマークは、トルコ語における大規模言語モデル(LLM)の言語的および概念的能力を評価するために設計された。 TR-MMLUは、62のセクションにまたがる6200の多重選択質問からなるデータセットから構築され、67の分野にまたがる280000の質問と、トルコの教育システム内の800以上のトピックからなるプールから選択される。この結果から,トークン化や微調整戦略の影響などの重要な課題が明らかとなり,モデル設計改善の領域が強調された。
参考スコア（独自算出の注目度）: 0.29687381456163997
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Language models have made remarkable advancements in understanding and generating human language, achieving notable success across a wide array of applications. However, evaluating these models remains a significant challenge, particularly for resource-limited languages such as Turkish. To address this gap, we introduce the Turkish MMLU (TR-MMLU) benchmark, a comprehensive evaluation framework designed to assess the linguistic and conceptual capabilities of large language models (LLMs) in Turkish. TR-MMLU is constructed from a carefully curated dataset comprising 6200 multiple-choice questions across 62 sections, selected from a pool of 280000 questions spanning 67 disciplines and over 800 topics within the Turkish education system. This benchmark provides a transparent, reproducible, and culturally relevant tool for evaluating model performance. It serves as a standard framework for Turkish NLP research, enabling detailed analyses of LLMs' capabilities in processing Turkish text and fostering the development of more robust and accurate language models. In this study, we evaluate state-of-the-art LLMs on TR-MMLU, providing insights into their strengths and limitations for Turkish-specific tasks. Our findings reveal critical challenges, such as the impact of tokenization and fine-tuning strategies, and highlight areas for improvement in model design. By setting a new standard for evaluating Turkish language models, TR-MMLU aims to inspire future innovations and support the advancement of Turkish NLP research.
Abstract（参考訳）: 言語モデルは、人間の言語を理解し、生成し、広範囲のアプリケーションで顕著な成功を収めた。しかし、トルコ語のような資源に制限のある言語では、これらのモデルを評価することは依然として大きな課題である。このギャップに対処するため,トルコ語における大規模言語モデル(LLM)の言語的・概念的能力を評価するための総合的な評価フレームワークである,トルコ語MMLU(TR-MMLU)ベンチマークを導入した。 TR-MMLUは、67の分野にまたがる280000の質問と、トルコの教育システム内の800以上のトピックから選択された62のセクションにわたる6200の多重選択質問からなる慎重に計算されたデータセットから構築されている。このベンチマークは、モデルパフォーマンスを評価するための透過的で再現性があり、文化的に関連するツールを提供する。トルコのNLP研究の標準フレームワークとして機能し、トルコ語のテキスト処理におけるLLMの能力を詳細に分析し、より堅牢で正確な言語モデルの開発を促進する。本研究では,TR-MMLU 上での最先端 LLM の評価を行い,トルコ固有のタスクに対するその強みと限界について考察した。この結果から,トークン化や微調整戦略の影響などの重要な課題が明らかとなり,モデル設計の改善領域が注目されている。 TR-MMLUは、トルコ語モデルを評価するための新しい標準を設定することで、将来のイノベーションを刺激し、トルコのNLP研究の発展を支援することを目指している。

関連論文リスト

MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages [2.115206401188031]
本稿では,テュルク語MMLUのTUMLUとTUMLU-miniの2つのベンチマークを提案する。 TUMLU-miniは、アゼルバイジャン語、クリミア・タタール語、カラカルパック語、カザフ語、タタール語、トルコ語、ウイグル語、ウズベク語で11人の学者からなる中・高校レベルの質問からなる。また、より簡潔でバランスの取れた、手作業によるデータセットのサブセットであるTUMLU-miniも提示します。
論文参考訳（メタデータ） (2025-02-16T07:07:38Z)
Optimizing Large Language Models for Turkish: New Methodologies in Corpus Selection and Training [0.0]
大規模言語モデルの生成したデータセットに適応し、英語のデータセットをトルコ語に翻訳する。このアプローチは、数ショットとゼロショットの両方の学習シナリオにおいて、モデルの精度を大幅に向上させた。
論文参考訳（メタデータ） (2024-12-03T19:17:18Z)
All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文参考訳（メタデータ） (2024-11-25T15:44:42Z)
TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish [54.51310112013655]
本稿では,最初のマルチタスク,複数選択のトルコQAベンチマーク,トルコMMLUを紹介する。トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。多言語オープンソース(Gemma、Llama、MT5)、クローズドソース(GPT 4o、Claude、Gemini)、トルコ適応モデル(Trendyolなど)を含む20以上のLLMを評価した。
論文参考訳（メタデータ） (2024-07-17T08:28:55Z)
Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文参考訳（メタデータ） (2024-05-07T21:58:45Z)
The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文参考訳（メタデータ） (2024-05-02T14:49:50Z)
CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。 CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文参考訳（メタデータ） (2024-02-20T16:02:12Z)
Benchmarking Procedural Language Understanding for Low-Resource Languages: A Case Study on Turkish [2.396465363376008]
トルコの手続き文書について事例研究を行う。まず、トルコのwikiHowにおけるチュートリアルの数を2000から52,000に拡張し、自動翻訳ツールを使用します。我々は、コーパス上のいくつかのダウンストリームタスクを生成する。例えば、アクションのリンク、ゴール推論、要約などである。
論文参考訳（メタデータ） (2023-09-13T03:42:28Z)
CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文参考訳（メタデータ） (2023-06-15T15:49:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。