論文の概要: The Invalsi Benchmarks: measuring Linguistic and Mathematical understanding of Large Language Models in Italian
- arxiv url: http://arxiv.org/abs/2403.18697v2
- Date: Mon, 17 Jun 2024 21:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 03:55:50.957037
- Title: The Invalsi Benchmarks: measuring Linguistic and Mathematical understanding of Large Language Models in Italian
- Title(参考訳): Invalsiベンチマーク:イタリア語における大規模言語モデルの言語学的および数学的理解の測定
- Authors: Andrea Esuli, Giovanni Puccetti,
- Abstract要約: Invalsi MATEは、イタリア語の数学的理解に基づくモデル性能の評価と、Invalsi ITAはイタリア語の言語理解を評価する。
これらのベンチマークは、イタリアの学校システムで6歳から18歳の学生に実施され、教育と教育の専門家によって検証されたInvalsiテストに基づいている。
- 参考スコア(独自算出の注目度): 4.84187718353576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Italian is a high resource language, there are few Italian-native benchmarks to evaluate Large Language Models (LLMs) generative abilities in this language. This work presents two new benchmarks: Invalsi MATE to evaluate models performance on mathematical understanding in Italian and Invalsi ITA to evaluate language understanding in Italian. These benchmarks are based on the Invalsi tests, which are administered to students of age between 6 and 18 within the Italian school system and have been validated by several experts in teaching and pedagogy. We use these benchmarks to evaluate 9 powerful language models showing that current language models are bound by 70% accuracy in mathematical understanding, achieved by Llama 3 70b and by 85% in language understanding. We also compare LLMs with the average performance of Italian students to show that Llama 3 is the only one to perform better than students on Invalsi MATE while most models outperform students on Invalsi ITA. We will make data and evaluation code openly available to pave the way for the future development of larger and harder benchmarks to evaluate LLMs' mathematical and linguistic understanding in Italian.
- Abstract(参考訳): イタリア語は高資源言語であるが、この言語ではLarge Language Models (LLM) の生成能力を評価するためのイタリアのネイティブベンチマークはほとんどない。
Invalsi MATEは、イタリア語の数学的理解に基づくモデル性能の評価と、Invalsi ITAはイタリア語の言語理解を評価する。
これらのベンチマークは、イタリアの学校システムで6歳から18歳の学生に実施され、教育と教育の専門家によって検証されたInvalsiテストに基づいている。
これらのベンチマークを用いて、現在の言語モデルが数学的理解において70%の精度で拘束され、Llama 3 70bと言語理解において85%の精度で達成されていることを示す9つの強力な言語モデルを評価する。
また,LLMをイタリアの学生の平均成績と比較したところ,Llama 3がInvalsi MATEの学生より優れているのに対して,ほとんどのモデルはInvalsi ITAの生徒より優れていることがわかった。
我々は,LLMの数学的および言語的理解をイタリア語で評価するために,より大規模かつ困難なベンチマークを今後開発する道を開くために,データおよび評価コードを公開する。
関連論文リスト
- MM-Eval: A Hierarchical Benchmark for Modern Mongolian Evaluation in LLMs [3.2243649561631984]
大規模言語モデル(LLM)は、高リソース言語では優れているが、モンゴル語のような低リソース言語では顕著な課題に直面している。
本稿では,これらの課題を,言語能力(構文と意味)と認知能力(知識と推論)に分類することで解決する。
これらの領域を体系的に評価するために,現代モンゴル語テキストブックIに基づく特殊なデータセットMM-Evalを開発した。
論文 参考訳(メタデータ) (2024-11-14T14:58:38Z) - MILU: A Multi-task Indic Language Understanding Benchmark [7.652738829153342]
既存のベンチマークは主に英語に焦点を当てており、Indic言語における大規模言語モデルの評価においてかなりのギャップを残している。
このギャップに対処するために設計された総合評価ベンチマークMILUを紹介する。
インド中心のデザインにより、MILUは地域や州レベルの試験の資料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。
論文 参考訳(メタデータ) (2024-11-04T19:17:17Z) - MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models [3.961168847961322]
大型言語モデル(LLM)は、人間の好みや判断のプロキシとして機能するタスクの評価器として一般的に用いられる。
既存のベンチマークは主に英語に重点を置いており、非英語の文脈における評価者としてのLLMの有効性についての限られた洞察を提供している。
MM-Evalは6つのカテゴリにまたがる18言語をカバーする多言語メタ評価ベンチマークである。
論文 参考訳(メタデータ) (2024-10-23T06:04:55Z) - LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages [8.754506364968394]
LingOlyベンチマークは、大規模言語モデルにおける高度な推論能力のための新しいベンチマークである。
非常に低リソースまたは絶滅した言語における言語パターンの文脈内同定と一般化の能力を評価する。
直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
論文 参考訳(メタデータ) (2024-06-10T11:50:29Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Instruction-Following Evaluation for Large Language Models [52.90926820437014]
大規模言語モデルに対するインストラクション・フォロー・エスバル(IFEval)を提案する。
IFEvalは、単純で簡単に再現できる評価ベンチマークである。
市場における2つのLLMの評価結果を示す。
論文 参考訳(メタデータ) (2023-11-14T05:13:55Z) - Large Language Models Only Pass Primary School Exams in Indonesia: A
Comprehensive Test on IndoMMLU [31.555098850095817]
IndoMMLUはインドネシアの文化と言語に対する最初のマルチタスク言語理解ベンチマークである。
インドネシアの小学校から大学への入学試験である。
論文 参考訳(メタデータ) (2023-10-07T21:49:38Z) - C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for
Foundation Models [58.42279750824907]
C-Evalは、中国語の文脈における基礎モデルの高度な知識と推論能力を評価するために設計された、中国初の総合的な評価スイートである。
C-Evalは、中学、高校、大学、専門職の4つの困難レベルにまたがる複数の質問を含んでいる。
我々は、C-Eval上で最も先進的なLCMについて、英語と中国語の両方のモデルを含む包括的な評価を行う。
論文 参考訳(メタデータ) (2023-05-15T03:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。