論文の概要: TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish
- arxiv url: http://arxiv.org/abs/2407.12402v2
- Date: Thu, 3 Oct 2024 15:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 20:36:48.564718
- Title: TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish
- Title(参考訳): トルコ語MMLU:トルコ語における大規模マルチタスク言語理解の測定
- Authors: Arda Yüksel, Abdullatif Köksal, Lütfi Kerem Şenel, Anna Korhonen, Hinrich Schütze,
- Abstract要約: 本稿では,最初のマルチタスク,複数選択のトルコQAベンチマーク,トルコMMLUを紹介する。
トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。
多言語オープンソース(Gemma、Llama、MT5)、クローズドソース(GPT 4o、Claude、Gemini)、トルコ適応モデル(Trendyolなど)を含む20以上のLLMを評価した。
- 参考スコア(独自算出の注目度): 54.51310112013655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple choice question answering tasks evaluate the reasoning, comprehension, and mathematical abilities of Large Language Models (LLMs). While existing benchmarks employ automatic translation for multilingual evaluation, this approach is error-prone and potentially introduces culturally biased questions, especially in social sciences. We introduce the first multitask, multiple-choice Turkish QA benchmark, TurkishMMLU, to evaluate LLMs' understanding of the Turkish language. TurkishMMLU includes over 10,000 questions, covering 9 different subjects from Turkish high-school education curricula. These questions are written by curriculum experts, suitable for the high-school curricula in Turkey, covering subjects ranging from natural sciences and math questions to more culturally representative topics such as Turkish Literature and the history of the Turkish Republic. We evaluate over 20 LLMs, including multilingual open-source (e.g., Gemma, Llama, MT5), closed-source (GPT 4o, Claude, Gemini), and Turkish-adapted (e.g., Trendyol) models. We provide an extensive evaluation, including zero-shot and few-shot evaluation of LLMs, chain-of-thought reasoning, and question difficulty analysis along with model performance. We provide an in-depth analysis of the Turkish capabilities and limitations of current LLMs to provide insights for future LLMs for the Turkish language. We publicly release our code for the dataset and evaluation: https://github.com/ArdaYueksel/TurkishMMLU.
- Abstract(参考訳): 複数の選択質問応答タスクは、Large Language Models (LLMs) の推論、理解、数学的能力を評価する。
既存のベンチマークでは、多言語評価のための自動翻訳が採用されているが、このアプローチはエラーを起こしやすく、特に社会科学において文化的に偏りが生じる可能性がある。
トルコ語に対するLLMの理解を評価するために,最初のマルチタスク,マルチチョイスのトルコ語QAベンチマーク,トルコ語MMLUを導入する。
トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。
これらの質問は、トルコの高校のカリキュラムに適したカリキュラムの専門家によって書かれており、自然科学や数学の問題からトルコ文学やトルコ共和国の歴史など、より文化的に代表されるトピックまで幅広いテーマをカバーしている。
我々は,多言語オープンソース(Gemma,Llama,MT5),クローズドソース(GPT 4o,Claude,Gemini),トルコ適応モデル(eg,Trendyol)を含む20以上のLLMを評価した。
本稿では,LLMのゼロショットおよび少数ショット評価,チェーン・オブ・シント推論,問題難易度解析,モデル性能など,幅広い評価を行う。
トルコ語における将来のLLMに関する洞察を提供するため、トルコ語能力と現在のLLMの限界を詳細に分析する。
データセットと評価のためのコードを公開しています。
関連論文リスト
- CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。
複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文 参考訳(メタデータ) (2024-10-23T04:55:08Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、23の言語にまたがる1.5Kの文化的に特定の質問のコレクションであり、51の文化的に翻訳された質問は、英語から22の言語に翻訳されている。
コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未調査言語をカバーする質問を書いています。
私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブスピーカーの言語使用を反映した、多種多様な複雑な質問が含まれています。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - Do LLMs Recognize me, When I is not me: Assessment of LLMs Understanding of Turkish Indexical Pronouns in Indexical Shift Contexts [0.0]
本研究はトルコにおける指数シフト問題に焦点をあてる。
索引的シフト問題(Indexical Shift problem)は、英語のような高リソース言語には存在しない文法的挑戦である指数的シフト文脈における代名詞の解法である。
本研究は,この目的のために設計されたトルコ語のデータセットを公開し,任意の言語におけるインデックスシフトを調査する最初の研究である。
論文 参考訳(メタデータ) (2024-06-08T20:30:53Z) - Automating Turkish Educational Quiz Generation Using Large Language Models [10.876144855651608]
本稿では、トルコ語教育文書の広範なコレクションを含む、トルコ・クイズ・インストラクト(トルコ語版)という専門的なデータセットを紹介する。
本研究は, GPT-4-Turbo, GPT-3.5-Turbo, Llama-2-7b-chat-hf, Llama-2-13b-chat-hfなどの大規模言語モデル(LLM)の機能を活用し,クイズ質問や回答を自動的に生成する。
論文 参考訳(メタデータ) (2024-06-05T15:54:50Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Benchmarking Procedural Language Understanding for Low-Resource
Languages: A Case Study on Turkish [2.396465363376008]
トルコの手続き文書について事例研究を行う。
まず、トルコのwikiHowにおけるチュートリアルの数を2000から52,000に拡張し、自動翻訳ツールを使用します。
我々は、コーパス上のいくつかのダウンストリームタスクを生成する。例えば、アクションのリンク、ゴール推論、要約などである。
論文 参考訳(メタデータ) (2023-09-13T03:42:28Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。