論文の概要: Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2501.00593v1
- Date: Tue, 31 Dec 2024 18:43:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:54.659324
- Title: Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation
- Title(参考訳): トルコのNLPにおける設定基準:大規模言語モデル評価のためのTR-MMLU
- Authors: M. Ali Bayram, Ali Arda Fincan, Ahmet Semih G"um"uş, Banu Diri, Savaş Yıldırım, "Oner Aytaş,
- Abstract要約: トルコ語MMLU(TR-MMLU)ベンチマークは、トルコ語における大規模言語モデル(LLM)の言語的および概念的能力を評価するために設計された。
TR-MMLUは、62のセクションにまたがる6200の多重選択質問からなるデータセットから構築され、67の分野にまたがる280000の質問と、トルコの教育システム内の800以上のトピックからなるプールから選択される。
この結果から,トークン化や微調整戦略の影響などの重要な課題が明らかとなり,モデル設計改善の領域が強調された。
- 参考スコア(独自算出の注目度): 0.29687381456163997
- License:
- Abstract: Language models have made remarkable advancements in understanding and generating human language, achieving notable success across a wide array of applications. However, evaluating these models remains a significant challenge, particularly for resource-limited languages such as Turkish. To address this gap, we introduce the Turkish MMLU (TR-MMLU) benchmark, a comprehensive evaluation framework designed to assess the linguistic and conceptual capabilities of large language models (LLMs) in Turkish. TR-MMLU is constructed from a carefully curated dataset comprising 6200 multiple-choice questions across 62 sections, selected from a pool of 280000 questions spanning 67 disciplines and over 800 topics within the Turkish education system. This benchmark provides a transparent, reproducible, and culturally relevant tool for evaluating model performance. It serves as a standard framework for Turkish NLP research, enabling detailed analyses of LLMs' capabilities in processing Turkish text and fostering the development of more robust and accurate language models. In this study, we evaluate state-of-the-art LLMs on TR-MMLU, providing insights into their strengths and limitations for Turkish-specific tasks. Our findings reveal critical challenges, such as the impact of tokenization and fine-tuning strategies, and highlight areas for improvement in model design. By setting a new standard for evaluating Turkish language models, TR-MMLU aims to inspire future innovations and support the advancement of Turkish NLP research.
- Abstract(参考訳): 言語モデルは、人間の言語を理解し、生成し、広範囲のアプリケーションで顕著な成功を収めた。
しかし、トルコ語のような資源に制限のある言語では、これらのモデルを評価することは依然として大きな課題である。
このギャップに対処するため,トルコ語における大規模言語モデル(LLM)の言語的・概念的能力を評価するための総合的な評価フレームワークである,トルコ語MMLU(TR-MMLU)ベンチマークを導入した。
TR-MMLUは、67の分野にまたがる280000の質問と、トルコの教育システム内の800以上のトピックから選択された62のセクションにわたる6200の多重選択質問からなる慎重に計算されたデータセットから構築されている。
このベンチマークは、モデルパフォーマンスを評価するための透過的で再現性があり、文化的に関連するツールを提供する。
トルコのNLP研究の標準フレームワークとして機能し、トルコ語のテキスト処理におけるLLMの能力を詳細に分析し、より堅牢で正確な言語モデルの開発を促進する。
本研究では,TR-MMLU 上での最先端 LLM の評価を行い,トルコ固有のタスクに対するその強みと限界について考察した。
この結果から,トークン化や微調整戦略の影響などの重要な課題が明らかとなり,モデル設計の改善領域が注目されている。
TR-MMLUは、トルコ語モデルを評価するための新しい標準を設定することで、将来のイノベーションを刺激し、トルコのNLP研究の発展を支援することを目指している。
関連論文リスト
- All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - MM-Eval: A Hierarchical Benchmark for Modern Mongolian Evaluation in LLMs [3.2243649561631984]
大規模言語モデル(LLM)は、高リソース言語では優れているが、モンゴル語のような低リソース言語では顕著な課題に直面している。
本稿では,これらの課題を,言語能力(構文と意味)と認知能力(知識と推論)に分類することで解決する。
これらの領域を体系的に評価するために,現代モンゴル語テキストブックIに基づく特殊なデータセットMM-Evalを開発した。
論文 参考訳(メタデータ) (2024-11-14T14:58:38Z) - TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish [54.51310112013655]
本稿では,最初のマルチタスク,複数選択のトルコQAベンチマーク,トルコMMLUを紹介する。
トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。
多言語オープンソース(Gemma、Llama、MT5)、クローズドソース(GPT 4o、Claude、Gemini)、トルコ適応モデル(Trendyolなど)を含む20以上のLLMを評価した。
論文 参考訳(メタデータ) (2024-07-17T08:28:55Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Fine-tuning Transformer-based Encoder for Turkish Language Understanding
Tasks [0.0]
トルコ語のためのTransformerベースのモデルとベースラインベンチマークを提供する。
我々は、トルコのBERTモデル、BERTurkを多くの下流タスクに微調整し、トルコのベンチマークデータセットで評価した。
論文 参考訳(メタデータ) (2024-01-30T19:27:04Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - Benchmarking Procedural Language Understanding for Low-Resource
Languages: A Case Study on Turkish [2.396465363376008]
トルコの手続き文書について事例研究を行う。
まず、トルコのwikiHowにおけるチュートリアルの数を2000から52,000に拡張し、自動翻訳ツールを使用します。
我々は、コーパス上のいくつかのダウンストリームタスクを生成する。例えば、アクションのリンク、ゴール推論、要約などである。
論文 参考訳(メタデータ) (2023-09-13T03:42:28Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。