Fugu-MT 論文翻訳(概要): Large Language Models Only Pass Primary School Exams in Indonesia: A Comprehensive Test on IndoMMLU

論文の概要: Large Language Models Only Pass Primary School Exams in Indonesia: A Comprehensive Test on IndoMMLU

arxiv url: http://arxiv.org/abs/2310.04928v2
Date: Sat, 21 Oct 2023 17:13:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 07:00:27.637130
Title: Large Language Models Only Pass Primary School Exams in Indonesia: A Comprehensive Test on IndoMMLU
Title（参考訳）: インドネシアの小学校試験に合格した大規模言語モデル:IndoMMLUの総合的な検証
Authors: Fajri Koto and Nurul Aisyah and Haonan Li and Timothy Baldwin
Abstract要約: IndoMMLUはインドネシアの文化と言語に対する最初のマルチタスク言語理解ベンチマークである。インドネシアの小学校から大学への入学試験である。
参考スコア（独自算出の注目度）: 31.555098850095817
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although large language models (LLMs) are often pre-trained on large-scale multilingual texts, their reasoning abilities and real-world knowledge are mainly evaluated based on English datasets. Assessing LLM capabilities beyond English is increasingly vital but hindered due to the lack of suitable datasets. In this work, we introduce IndoMMLU, the first multi-task language understanding benchmark for Indonesian culture and languages, which consists of questions from primary school to university entrance exams in Indonesia. By employing professional teachers, we obtain 14,981 questions across 64 tasks and education levels, with 46% of the questions focusing on assessing proficiency in the Indonesian language and knowledge of nine local languages and cultures in Indonesia. Our empirical evaluations show that GPT-3.5 only manages to pass the Indonesian primary school level, with limited knowledge of local Indonesian languages and culture. Other smaller models such as BLOOMZ and Falcon perform at even lower levels.
Abstract（参考訳）: 大規模言語モデル(LLM)は大規模多言語テキストで事前訓練されることが多いが、その推論能力と実世界の知識は主に英語データセットに基づいて評価される。英語以外のLLM能力を評価することはますます不可欠だが、適切なデータセットがないために妨げられている。本研究では,インドネシアにおける初等学校から大学入学試験までの質問からなる,インドネシアの文化と言語に対する最初のマルチタスク言語理解ベンチマークであるIndoMMLUを紹介する。専門職の教員を雇うことで,64の課題と教育レベルにまたがる14,981の質問が得られ,そのうち46%はインドネシア語の習熟度評価とインドネシアの9つの言語と文化の知識に焦点をあてた質問である。 GPT-3.5はインドネシアの初等教育の水準に留まり、インドネシアの言語や文化に関する知識は限られている。 BLOOMZやファルコンのような他の小型モデルは、より低いレベルで実行する。

関連論文リスト

MELAC: Massive Evaluation of Large Language Models with Alignment of Culture in Persian Language [0.8182812460605992]
この研究はペルシア語とイラン文化に焦点を当てている。イラン法、ペルシア語文法、ペルシア語イディオム、大学入試などのトピックについて、LSMを評価するために特別に設計された19の新たな評価データセットを紹介した。これらのデータセットを用いて41の著名なLCMをベンチマークし,その分野における既存の文化的・言語的評価ギャップを埋めることを目的とした。
論文参考訳（メタデータ） (2025-08-01T14:46:57Z)
MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs [56.87573414161703]
大規模言語モデル(LLM)を評価するベンチマークであるMultiNRC(MultiNRC)を導入する。 MultiNRCは4つの中核的推論カテゴリをカバーしている: 言語固有の言語推論、単語プレイとライドル、文化的/トラディション推論、文化的関連性のある数学推論である。文化的・貿易的推論や文化的関連性を考慮した数学的推論については、英語に習熟した母語話者のマニュアル翻訳による多言語質問の英訳も提供する。
論文参考訳（メタデータ） (2025-07-23T12:56:31Z)
Multilingual Performance Biases of Large Language Models in Education [39.14806026620442]
大規模言語モデル(LLM)は、教育環境においてますます採用されている。この研究は、非英語の教育環境での使用が保証されているかどうかを確かめるものである。
論文参考訳（メタデータ） (2025-04-24T16:32:31Z)
LAG-MMLU: Benchmarking Frontier LLM Understanding in Latvian and Giriama [4.533057394214656]
OpenAIのo1モデルは、英語で92.8%、ラトビアで88.8%、グリアマで70.8%、全言語で他より優れています。我々の結果は、文化AIの文脈化を進める上で、局所的なベンチマークと人的評価の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-03-14T22:50:50Z)
Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。 MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文参考訳（メタデータ） (2024-12-04T13:27:09Z)
MILU: A Multi-task Indic Language Understanding Benchmark [7.652738829153342]
既存のベンチマークは主に英語に焦点を当てており、Indic言語における大規模言語モデルの評価においてかなりのギャップを残している。このギャップに対処するために設計された総合評価ベンチマークMILUを紹介する。インド中心のデザインにより、MILUは地域や州レベルの試験の資料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。
論文参考訳（メタデータ） (2024-11-04T19:17:17Z)
MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。 MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。 MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文参考訳（メタデータ） (2024-04-07T15:23:28Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。 C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文参考訳（メタデータ） (2024-01-02T06:29:02Z)
BHASA: A Holistic Southeast Asian Linguistic and Cultural Evaluation Suite for Large Language Models [0.06597195879147556]
BHASA (英語: BHASA) は、東南アジアにおける大規模言語モデル(LLM)のための総合言語・文化評価スイートである。 1)自然言語理解(NLU)、生成(NLG)、推論(NLR)の8つのタスクをカバーするNLPベンチマーク,(2)LINDSEA, 構文, 意味学, 実用学などの言語現象を網羅する言語診断ツールキット, (3) 文化的表現と感受性の両方を探索する文化的診断データセットである。
論文参考訳（メタデータ） (2023-09-12T09:31:25Z)
M3Exam: A Multilingual, Multimodal, Multilevel Benchmark for Examining Large Language Models [76.88692952308084]
M3Examは、多言語、マルチモーダル、マルチレベルコンテキストにおける大規模言語モデル(LLM)を評価するためのベンチマークである。 M3Examには、9つの言語で12,317の質問があり、3つの教育レベルがある。我々は,M3Exam上でのLLMの性能評価を行い,GPT-4を含む現在のモデルが多言語テキストに苦戦していることを確認した。
論文参考訳（メタデータ） (2023-06-08T13:21:29Z)
One Country, 700+ Languages: NLP Challenges for Underrepresented Languages and Dialects in Indonesia [60.87739250251769]
インドネシアの700以上の言語を対象としたNLP研究の現状について概説する。インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。
論文参考訳（メタデータ） (2022-03-24T22:07:22Z)
IndoLEM and IndoBERT: A Benchmark Dataset and Pre-trained Language Model for Indonesian NLP [41.57622648924415]
インドネシア語は2億人近い人々によって話されており、世界で10番目に話されている言語である。インドネシアにおけるこれまでの作業は、注釈付きデータセットの欠如、言語リソースの多さ、リソースの標準化の欠如によって妨げられていた。 IndoLEMデータセットはインドネシア語の7つのタスクからなる。さらにインドネシア語のための新しい訓練済み言語モデルであるIndoBERTをリリースし、IndoLEMで評価する。
論文参考訳（メタデータ） (2020-11-02T01:54:56Z)
IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding [41.691861010118394]
インドネシアの自然言語理解タスクをトレーニングし、評価し、ベンチマークするための、史上初の膨大なリソースを紹介します。 IndoNLUには12のタスクが含まれている。タスクのデータセットは、タスクの多様性を保証するために、さまざまなドメインやスタイルに配置されます。また、インドネシアの大規模でクリーンなデータセットIndo4Bからトレーニングされたインドネシアの事前訓練モデル(IndoBERT)のセットも提供します。
論文参考訳（メタデータ） (2020-09-11T12:21:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。