論文の概要: Large Language Models Only Pass Primary School Exams in Indonesia: A
Comprehensive Test on IndoMMLU
- arxiv url: http://arxiv.org/abs/2310.04928v1
- Date: Sat, 7 Oct 2023 21:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 14:39:17.550282
- Title: Large Language Models Only Pass Primary School Exams in Indonesia: A
Comprehensive Test on IndoMMLU
- Title(参考訳): インドネシアの小学校試験に合格した大規模言語モデル:IndoMMLUの総合的な検証
- Authors: Fajri Koto and Nurul Aisyah and Haonan Li and Timothy Baldwin
- Abstract要約: インドネシアの小学校から大学入学試験までの試験問題を収集し,大規模言語モデルが試験に合格できるかどうかを評価する。
質問の46%は、インドネシア語の習熟度を評価することに焦点を当てている。
GPT-3.5は,インドネシアの地方言語や文化の知識が限られており,インドネシアの初等教育水準を通過させるのみであることを示す実証的な評価を行った。
- 参考スコア(独自算出の注目度): 31.555098850095817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have made significant advancements in natural language
processing (NLP), exhibiting human performance across various classic NLP
tasks. These tasks, however, focus on structure and semantics, and few are
designed to assess reasoning abilities and real-world knowledge, which are
increasingly vital given that these models are trained on extensive textual
data and information. While prior research primarily focuses on English, in
this work, we gather a collection of exam problems from primary school to
university entrance tests in Indonesia, and evaluate whether large language
models can pass the exams. We obtain 14,906 questions across 63 tasks and
levels, with 46\% of the questions focusing on assessing proficiency in the
Indonesian language and knowledge of nine local languages and cultures in
Indonesia. Our empirical evaluations show that GPT-3.5 only manages to pass the
Indonesian primary school level, with limited knowledge of the Indonesian local
languages and cultures. Other smaller models such as BLOOMZ and Falcon fail the
exams.
- Abstract(参考訳): 大規模言語モデルは自然言語処理(NLP)において顕著な進歩を遂げており、様々な古典的NLPタスクにおける人間のパフォーマンスを示している。
しかし、これらのタスクは構造と意味論に重点を置いており、推論能力と実世界の知識を評価するように設計されているものはほとんどなく、これらのモデルは広範なテキストデータと情報に基づいて訓練されているため、ますます重要になっている。
先行研究は主に英語が中心であるが,本研究では,インドネシアの小学校から大学入学試験までの試験問題の集合を収集し,大規模言語モデルが試験に合格できるかどうかを評価する。
14,906の質問を63の課題とレベルに分けて獲得し,インドネシア語の習熟度とインドネシアの9つの言語と文化の知識を評価することに焦点を当てた。
GPT-3.5は,インドネシアの地方言語や文化の知識が限られており,インドネシアの初等教育水準を達成できたに過ぎない。
BLOOMZやファルコンなどの小型モデルも試験に失敗している。
関連論文リスト
- MILU: A Multi-task Indic Language Understanding Benchmark [7.652738829153342]
既存のベンチマークは主に英語に焦点を当てており、Indic言語における大規模言語モデルの評価においてかなりのギャップを残している。
このギャップに対処するために設計された総合評価ベンチマークMILUを紹介する。
インド中心のデザインにより、MILUは地域や州レベルの試験の資料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。
論文 参考訳(メタデータ) (2024-11-04T19:17:17Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - BHASA: A Holistic Southeast Asian Linguistic and Cultural Evaluation
Suite for Large Language Models [0.06597195879147556]
BHASA (英語: BHASA) は、東南アジアにおける大規模言語モデル(LLM)のための総合言語・文化評価スイートである。
1)自然言語理解(NLU)、生成(NLG)、推論(NLR)の8つのタスクをカバーするNLPベンチマーク,(2)LINDSEA, 構文, 意味学, 実用学などの言語現象を網羅する言語診断ツールキット, (3) 文化的表現と感受性の両方を探索する文化的診断データセットである。
論文 参考訳(メタデータ) (2023-09-12T09:31:25Z) - M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining
Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。
M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。
我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文 参考訳(メタデータ) (2023-06-08T13:21:29Z) - One Country, 700+ Languages: NLP Challenges for Underrepresented
Languages and Dialects in Indonesia [60.87739250251769]
インドネシアの700以上の言語を対象としたNLP研究の現状について概説する。
インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。
論文 参考訳(メタデータ) (2022-03-24T22:07:22Z) - IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model
for Indonesian NLP [41.57622648924415]
インドネシア語は2億人近い人々によって話されており、世界で10番目に話されている言語である。
インドネシアにおけるこれまでの作業は、注釈付きデータセットの欠如、言語リソースの多さ、リソースの標準化の欠如によって妨げられていた。
IndoLEMデータセットはインドネシア語の7つのタスクからなる。
さらにインドネシア語のための新しい訓練済み言語モデルであるIndoBERTをリリースし、IndoLEMで評価する。
論文 参考訳(メタデータ) (2020-11-02T01:54:56Z) - IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural
Language Understanding [41.691861010118394]
インドネシアの自然言語理解タスクをトレーニングし、評価し、ベンチマークするための、史上初の膨大なリソースを紹介します。
IndoNLUには12のタスクが含まれている。
タスクのデータセットは、タスクの多様性を保証するために、さまざまなドメインやスタイルに配置されます。
また、インドネシアの大規模でクリーンなデータセットIndo4Bからトレーニングされたインドネシアの事前訓練モデル(IndoBERT)のセットも提供します。
論文 参考訳(メタデータ) (2020-09-11T12:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。