論文の概要: The Invalsi Benchmarks: measuring Linguistic and Mathematical understanding of Large Language Models in Italian
- arxiv url: http://arxiv.org/abs/2403.18697v3
- Date: Tue, 17 Sep 2024 12:27:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 22:20:44.245129
- Title: The Invalsi Benchmarks: measuring Linguistic and Mathematical understanding of Large Language Models in Italian
- Title(参考訳): Invalsiベンチマーク:イタリア語における大規模言語モデルの言語学的および数学的理解の測定
- Authors: Giovanni Puccetti, Maria Cassese, Andrea Esuli,
- Abstract要約: Invalsi MATE to evaluate model performance on mathematical understanding in Italian, Invalsi ITA to evaluate language understanding in Italian and Olimpiadi MATE for more complex mathematical understanding。
Invasli MATEでは,Llama 3.1 70bインストラクションで,Invalsi ITAでは88%の精度で,10の強力な言語モデルを評価した。
- 参考スコア(独自算出の注目度): 4.3081040210159385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Italian is a high-resource language, there are few Italian-native benchmarks to evaluate generative Large Language Models (LLMs) in this language. This work presents three new benchmarks: Invalsi MATE to evaluate models performance on mathematical understanding in Italian, Invalsi ITA to evaluate language understanding in Italian and Olimpiadi MATE for more complex mathematical understanding. The first two benchmarks are based on the Invalsi tests, which are administered to students of age between 6 and 18 within the Italian school system and have been validated by several experts in teaching and pedagogy, the third one comes from the Italian high school math Olympics. We evaluate 10 powerful language models on these benchmarks and find that they are bound by 71% accuracy on Invasli MATE, achieved by Llama 3.1 70b instruct and by 88% on Invalsi ITA. For both Invalsi MATE and Invalsi ITA we compare LLMs with the average performance of Italian students to show that Llama 3.1 is the only one to outperform them on Invalsi MATE while most models do so on Invalsi ITA, we then show that Olimpiadi MATE is more challenging than Invalsi MATE and the highest accuracy, achieved by Llama 3.1 405b instruct is 45%. We will make data and evaluation code openly available upon acceptance of the paper.
- Abstract(参考訳): イタリア語は高リソース言語であるが、この言語で生成可能なLarge Language Model(LLM)を評価するためのイタリアのネイティブベンチマークは少ない。
Invalsi MATE to evaluate model performance on mathematical understanding in Italian, Invalsi ITA to evaluate language understanding in Italian and Olimpiadi MATE for more complex mathematical understanding。
最初の2つのベンチマークは、イタリアの学校で6歳から18歳までの生徒に実施され、教育と教育の専門家によって検証されたInvalsiテストに基づいている。
Invasli MATEでは,Llama 3.1 70bインストラクションで,Invalsi ITAでは88%の精度で,10の強力な言語モデルを評価した。
Invalsi MATE と Invalsi ITA を比較し,Llama 3.1 が Invalsi MATE に勝っているのに対して,ほとんどのモデルが Invalsi ITA に勝っているのに対して,Llama 3.1 は Invalsi MATE に勝っていることを示すとともに,Olimpiadi MATE が Invalsi MATE よりも難易度が高いこと,Llama 3.1 405b の指示によって達成された最高精度が 45% であることを示す。
論文の受理後、データ及び評価コードを公開します。
関連論文リスト
- MM-Eval: A Hierarchical Benchmark for Modern Mongolian Evaluation in LLMs [3.2243649561631984]
大規模言語モデル(LLM)は、高リソース言語では優れているが、モンゴル語のような低リソース言語では顕著な課題に直面している。
本稿では,これらの課題を,言語能力(構文と意味)と認知能力(知識と推論)に分類することで解決する。
これらの領域を体系的に評価するために,現代モンゴル語テキストブックIに基づく特殊なデータセットMM-Evalを開発した。
論文 参考訳(メタデータ) (2024-11-14T14:58:38Z) - MILU: A Multi-task Indic Language Understanding Benchmark [7.652738829153342]
既存のベンチマークは主に英語に焦点を当てており、Indic言語における大規模言語モデルの評価においてかなりのギャップを残している。
このギャップに対処するために設計された総合評価ベンチマークMILUを紹介する。
インド中心のデザインにより、MILUは地域や州レベルの試験の資料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。
論文 参考訳(メタデータ) (2024-11-04T19:17:17Z) - MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models [3.961168847961322]
大型言語モデル(LLM)は、人間の好みや判断のプロキシとして機能するタスクの評価器として一般的に用いられる。
既存のベンチマークは主に英語に重点を置いており、非英語の文脈における評価者としてのLLMの有効性についての限られた洞察を提供している。
MM-Evalは6つのカテゴリにまたがる18言語をカバーする多言語メタ評価ベンチマークである。
論文 参考訳(メタデータ) (2024-10-23T06:04:55Z) - LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages [8.754506364968394]
LingOlyベンチマークは、大規模言語モデルにおける高度な推論能力のための新しいベンチマークである。
非常に低リソースまたは絶滅した言語における言語パターンの文脈内同定と一般化の能力を評価する。
直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
論文 参考訳(メタデータ) (2024-06-10T11:50:29Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Instruction-Following Evaluation for Large Language Models [52.90926820437014]
大規模言語モデルに対するインストラクション・フォロー・エスバル(IFEval)を提案する。
IFEvalは、単純で簡単に再現できる評価ベンチマークである。
市場における2つのLLMの評価結果を示す。
論文 参考訳(メタデータ) (2023-11-14T05:13:55Z) - Large Language Models Only Pass Primary School Exams in Indonesia: A
Comprehensive Test on IndoMMLU [31.555098850095817]
IndoMMLUはインドネシアの文化と言語に対する最初のマルチタスク言語理解ベンチマークである。
インドネシアの小学校から大学への入学試験である。
論文 参考訳(メタデータ) (2023-10-07T21:49:38Z) - C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for
Foundation Models [58.42279750824907]
C-Evalは、中国語の文脈における基礎モデルの高度な知識と推論能力を評価するために設計された、中国初の総合的な評価スイートである。
C-Evalは、中学、高校、大学、専門職の4つの困難レベルにまたがる複数の質問を含んでいる。
我々は、C-Eval上で最も先進的なLCMについて、英語と中国語の両方のモデルを含む包括的な評価を行う。
論文 参考訳(メタデータ) (2023-05-15T03:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。