論文の概要: Large Language Models Only Pass Primary School Exams in Indonesia: A
Comprehensive Test on IndoMMLU
- arxiv url: http://arxiv.org/abs/2310.04928v2
- Date: Sat, 21 Oct 2023 17:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 07:00:27.637130
- Title: Large Language Models Only Pass Primary School Exams in Indonesia: A
Comprehensive Test on IndoMMLU
- Title(参考訳): インドネシアの小学校試験に合格した大規模言語モデル:IndoMMLUの総合的な検証
- Authors: Fajri Koto and Nurul Aisyah and Haonan Li and Timothy Baldwin
- Abstract要約: IndoMMLUはインドネシアの文化と言語に対する最初のマルチタスク言語理解ベンチマークである。
インドネシアの小学校から大学への入学試験である。
- 参考スコア(独自算出の注目度): 31.555098850095817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although large language models (LLMs) are often pre-trained on large-scale
multilingual texts, their reasoning abilities and real-world knowledge are
mainly evaluated based on English datasets. Assessing LLM capabilities beyond
English is increasingly vital but hindered due to the lack of suitable
datasets. In this work, we introduce IndoMMLU, the first multi-task language
understanding benchmark for Indonesian culture and languages, which consists of
questions from primary school to university entrance exams in Indonesia. By
employing professional teachers, we obtain 14,981 questions across 64 tasks and
education levels, with 46% of the questions focusing on assessing proficiency
in the Indonesian language and knowledge of nine local languages and cultures
in Indonesia. Our empirical evaluations show that GPT-3.5 only manages to pass
the Indonesian primary school level, with limited knowledge of local Indonesian
languages and culture. Other smaller models such as BLOOMZ and Falcon perform
at even lower levels.
- Abstract(参考訳): 大規模言語モデル(LLM)は大規模多言語テキストで事前訓練されることが多いが、その推論能力と実世界の知識は主に英語データセットに基づいて評価される。
英語以外のLLM能力を評価することはますます不可欠だが、適切なデータセットがないために妨げられている。
本研究では,インドネシアにおける初等学校から大学入学試験までの質問からなる,インドネシアの文化と言語に対する最初のマルチタスク言語理解ベンチマークであるIndoMMLUを紹介する。
専門職の教員を雇うことで,64の課題と教育レベルにまたがる14,981の質問が得られ,そのうち46%はインドネシア語の習熟度評価とインドネシアの9つの言語と文化の知識に焦点をあてた質問である。
GPT-3.5はインドネシアの初等教育の水準に留まり、インドネシアの言語や文化に関する知識は限られている。
BLOOMZやファルコンのような他の小型モデルは、より低いレベルで実行する。
関連論文リスト
- MILU: A Multi-task Indic Language Understanding Benchmark [7.652738829153342]
既存のベンチマークは主に英語に焦点を当てており、Indic言語における大規模言語モデルの評価においてかなりのギャップを残している。
このギャップに対処するために設計された総合評価ベンチマークMILUを紹介する。
インド中心のデザインにより、MILUは地域や州レベルの試験の資料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。
論文 参考訳(メタデータ) (2024-11-04T19:17:17Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - BHASA: A Holistic Southeast Asian Linguistic and Cultural Evaluation
Suite for Large Language Models [0.06597195879147556]
BHASA (英語: BHASA) は、東南アジアにおける大規模言語モデル(LLM)のための総合言語・文化評価スイートである。
1)自然言語理解(NLU)、生成(NLG)、推論(NLR)の8つのタスクをカバーするNLPベンチマーク,(2)LINDSEA, 構文, 意味学, 実用学などの言語現象を網羅する言語診断ツールキット, (3) 文化的表現と感受性の両方を探索する文化的診断データセットである。
論文 参考訳(メタデータ) (2023-09-12T09:31:25Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z) - One Country, 700+ Languages: NLP Challenges for Underrepresented
Languages and Dialects in Indonesia [60.87739250251769]
インドネシアの700以上の言語を対象としたNLP研究の現状について概説する。
インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。
論文 参考訳(メタデータ) (2022-03-24T22:07:22Z) - IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model
for Indonesian NLP [41.57622648924415]
インドネシア語は2億人近い人々によって話されており、世界で10番目に話されている言語である。
インドネシアにおけるこれまでの作業は、注釈付きデータセットの欠如、言語リソースの多さ、リソースの標準化の欠如によって妨げられていた。
IndoLEMデータセットはインドネシア語の7つのタスクからなる。
さらにインドネシア語のための新しい訓練済み言語モデルであるIndoBERTをリリースし、IndoLEMで評価する。
論文 参考訳(メタデータ) (2020-11-02T01:54:56Z) - IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural
Language Understanding [41.691861010118394]
インドネシアの自然言語理解タスクをトレーニングし、評価し、ベンチマークするための、史上初の膨大なリソースを紹介します。
IndoNLUには12のタスクが含まれている。
タスクのデータセットは、タスクの多様性を保証するために、さまざまなドメインやスタイルに配置されます。
また、インドネシアの大規模でクリーンなデータセットIndo4Bからトレーニングされたインドネシアの事前訓練モデル(IndoBERT)のセットも提供します。
論文 参考訳(メタデータ) (2020-09-11T12:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。