論文の概要: Büyük Dil Modelleri için TR-MMLU Benchmarkı: Performans Değerlendirmesi, Zorluklar ve İyileştirme Fırsatları
- arxiv url: http://arxiv.org/abs/2508.13044v1
- Date: Mon, 18 Aug 2025 16:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.47082
- Title: Büyük Dil Modelleri için TR-MMLU Benchmarkı: Performans Değerlendirmesi, Zorluklar ve İyileştirme Fırsatları
- Title(参考訳): Büyük Dil Modelleri için TR-MMLU Benchmarkı: Performans De'erlendirmesi, Zorluklar ve syile tirme Fırsatları
- Authors: M. Ali Bayram, Ali Arda Fincan, Ahmet Semih Gümüş, Banu Diri, Savaş Yıldırım, Öner Aytaş,
- Abstract要約: TR-MMLUは、トルコの大規模言語モデル(LLM)の言語的および概念的能力を評価するためのフレームワークである。
トルコの教育システム内の62のセクションにまたがる6,200の多重選択質問からなるデータセットに基づいている。
TR-MMLUはトルコのNLP研究を推進し、将来のイノベーションを刺激する新しい標準を設定している。
- 参考スコア(独自算出の注目度): 0.29687381456163997
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language models have made significant advancements in understanding and generating human language, achieving remarkable success in various applications. However, evaluating these models remains a challenge, particularly for resource-limited languages like Turkish. To address this issue, we introduce the Turkish MMLU (TR-MMLU) benchmark, a comprehensive evaluation framework designed to assess the linguistic and conceptual capabilities of large language models (LLMs) in Turkish. TR-MMLU is based on a meticulously curated dataset comprising 6,200 multiple-choice questions across 62 sections within the Turkish education system. This benchmark provides a standard framework for Turkish NLP research, enabling detailed analyses of LLMs' capabilities in processing Turkish text. In this study, we evaluated state-of-the-art LLMs on TR-MMLU, highlighting areas for improvement in model design. TR-MMLU sets a new standard for advancing Turkish NLP research and inspiring future innovations.
- Abstract(参考訳): 言語モデルは、人間の言語を理解し、生成し、様々なアプリケーションで顕著な成功を収めた。
しかし、トルコ語のような資源に制限のある言語では、これらのモデルを評価することは依然として困難である。
そこで本稿では,トルコ語における大規模言語モデル(LLM)の言語的・概念的能力を評価するための総合的な評価フレームワークである,トルコ語MMLU(TR-MMLU)ベンチマークを紹介する。
TR-MMLUは、トルコの教育システム内の62のセクションにわたる6,200の多重選択質問からなる厳密にキュレートされたデータセットに基づいている。
このベンチマークはトルコのNLP研究の標準フレームワークを提供し、トルコ語のテキスト処理におけるLLMの能力の詳細な分析を可能にする。
本研究では, TR-MMLU 上での最先端 LLM の評価を行い, モデル設計の改善分野を強調した。
TR-MMLUはトルコのNLP研究を推進し、将来のイノベーションを刺激する新しい標準を設定している。
関連論文リスト
- Introducing TrGLUE and SentiTurca: A Comprehensive Benchmark for Turkish General Language Understanding and Sentiment Analysis [4.061135251278187]
TrGLUEはトルコ語で自然言語理解を評価するためのベンチマークである。
感情分析のための特別なベンチマークであるSentiTurcaも紹介する。
TrGLUEは、ドメインとGLUEスタイルの評価のタスク定式化を反映したトルコ原産コーパスで構成されている。
論文 参考訳(メタデータ) (2025-12-26T18:02:09Z) - Cetvel: A Unified Benchmark for Evaluating Language Understanding, Generation and Cultural Capacity of LLMs for Turkish [9.111556632499472]
Cetvelはトルコの大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
トルコ語の言語的・文化的豊かさを反映したコンテンツを確保するための差別的・生成的なタスクを幅広く組み合わせている。
論文 参考訳(メタデータ) (2025-08-22T14:42:50Z) - An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。
本研究は,LLMのM2MS能力に関する系統的研究である。
論文 参考訳(メタデータ) (2025-05-19T11:18:54Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - Setting Standards in Turkish NLP: TR-MMLU for Large Language Model Evaluation [0.29687381456163997]
トルコ語MMLU(TR-MMLU)ベンチマークは、トルコ語における大規模言語モデル(LLM)の言語的および概念的能力を評価するために設計された。
TR-MMLUは、62のセクションにまたがる6200の多重選択質問からなるデータセットから構築され、67の分野にまたがる280000の質問と、トルコの教育システム内の800以上のトピックからなるプールから選択される。
この結果から,トークン化や微調整戦略の影響などの重要な課題が明らかとなり,モデル設計改善の領域が強調された。
論文 参考訳(メタデータ) (2024-12-31T18:43:49Z) - TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish [54.51310112013655]
本稿では,最初のマルチタスク,複数選択のトルコQAベンチマーク,トルコMMLUを紹介する。
トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。
多言語オープンソース(Gemma、Llama、MT5)、クローズドソース(GPT 4o、Claude、Gemini)、トルコ適応モデル(Trendyolなど)を含む20以上のLLMを評価した。
論文 参考訳(メタデータ) (2024-07-17T08:28:55Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。