Fugu-MT 論文翻訳(概要): The Invalsi Benchmark: measuring Language Models Mathematical and Language understanding in Italian

論文の概要: The Invalsi Benchmark: measuring Language Models Mathematical and Language understanding in Italian

arxiv url: http://arxiv.org/abs/2403.18697v1
Date: Wed, 27 Mar 2024 15:46:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 16:19:17.936176
Title: The Invalsi Benchmark: measuring Language Models Mathematical and Language understanding in Italian
Title（参考訳）: Invalsiベンチマーク:イタリア語の数学的および言語理解を測る言語モデル
Authors: Andrea Esuli, Giovanni Puccetti,
Abstract要約: 本研究は,イタリア語における数学的理解と言語理解のモデル性能を評価するための2つの新しいベンチマークを示す。これらのベンチマークは、イタリアの学校システムにおいて、11歳から18歳の学生が実施する実際のテストに基づいている。これは、現在の言語モデルが60%の精度でバインドされている、挑戦的なベンチマークであることを示す。
参考スコア（独自算出の注目度）: 4.84187718353576
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While Italian is by all metrics a high resource language, currently, there are isn't a Language Model pre-trained exclusively in this language. This results in a lower number of available benchmarks to evaluate the performance of language models in Italian. This work presents two new benchmarks to evaluate the models performance on mathematical understanding and language understanding in Italian. These benchmarks are based on real tests that are undertaken by students of age between 11 and 18 within the Italian school system and have therefore been validated by several experts in didactics and pedagogy. To validate this dataset we evaluate the performance of 9 language models that are the best performing when writing in Italian, including our own fine-tuned models. We show that this is a challenging benchmark where current language models are bound by 60\% accuracy. We believe that the release of this dataset paves the way for improving future models mathematical and language understanding in Italian.
Abstract（参考訳）: イタリア語はいずれも高いリソース言語ですが、現時点では、この言語でのみ事前訓練された言語モデルはありません。これにより、イタリア語における言語モデルの性能を評価するために利用可能なベンチマークの数が少なくなる。本研究は,イタリア語における数学的理解と言語理解のモデル性能を評価するための2つの新しいベンチマークを示す。これらのベンチマークは、イタリアの学校システムにおいて、11歳から18歳の学生が実施した実際のテストに基づいており、そのため、教養や教育の専門家によって検証されている。このデータセットを検証するために,我々は,イタリア語で記述する上で最高の9つの言語モデルの性能を評価する。これは、現在の言語モデルが60\%の精度でバインドされている、挑戦的なベンチマークであることを示す。このデータセットのリリースは、イタリア語の数学的および言語理解の将来モデルを改善するための道を開いたと信じている。

関連論文リスト

PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
FarsEval-PKBETS: A new diverse benchmark for evaluating Persian large language models [0.5221124918965586]
本稿では,ペルシア語における大規模言語モデルを評価するためのFarsEvalプロジェクトのサブセットであるFarsEval-PKBETSベンチマークを紹介する。このベンチマークは4000の質問と、複数の選択、短い回答、記述的な応答を含む様々な形式の回答で構成されている。医学、法律、宗教、ペルシア語、百科事典知識、人間の嗜好、社会知識、倫理と偏見、テキスト生成、他者の権利の尊重など幅広い分野やタスクをカバーしている。
論文参考訳（メタデータ） (2025-04-20T17:43:47Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
MM-Eval: A Hierarchical Benchmark for Modern Mongolian Evaluation in LLMs [3.2243649561631984]
大規模言語モデル(LLM)は、高リソース言語では優れているが、モンゴル語のような低リソース言語では顕著な課題に直面している。本稿では,これらの課題を,言語能力(構文と意味)と認知能力(知識と推論)に分類することで解決する。これらの領域を体系的に評価するために,現代モンゴル語テキストブックIに基づく特殊なデータセットMM-Evalを開発した。
論文参考訳（メタデータ） (2024-11-14T14:58:38Z)
MILU: A Multi-task Indic Language Understanding Benchmark [7.652738829153342]
既存のベンチマークは主に英語に焦点を当てており、Indic言語における大規模言語モデルの評価においてかなりのギャップを残している。このギャップに対処するために設計された総合評価ベンチマークMILUを紹介する。インド中心のデザインにより、MILUは地域や州レベルの試験の資料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。
論文参考訳（メタデータ） (2024-11-04T19:17:17Z)
MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models [3.961168847961322]
大型言語モデル(LLM)は、人間の好みや判断のプロキシとして機能するタスクの評価器として一般的に用いられる。既存のベンチマークは主に英語に重点を置いており、非英語の文脈における評価者としてのLLMの有効性についての限られた洞察を提供している。 MM-Evalは6つのカテゴリにまたがる18言語をカバーする多言語メタ評価ベンチマークである。
論文参考訳（メタデータ） (2024-10-23T06:04:55Z)
LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages [8.754506364968394]
LingOlyベンチマークは、大規模言語モデルにおける高度な推論能力のための新しいベンチマークである。非常に低リソースまたは絶滅した言語における言語パターンの文脈内同定と一般化の能力を評価する。直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
論文参考訳（メタデータ） (2024-06-10T11:50:29Z)
OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。 GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文参考訳（メタデータ） (2024-02-21T18:49:26Z)
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文参考訳（メタデータ） (2024-02-21T04:42:41Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。 C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文参考訳（メタデータ） (2024-01-02T06:29:02Z)
Instruction-Following Evaluation for Large Language Models [52.90926820437014]
大規模言語モデルに対するインストラクション・フォロー・エスバル(IFEval)を提案する。 IFEvalは、単純で簡単に再現できる評価ベンチマークである。市場における2つのLLMの評価結果を示す。
論文参考訳（メタデータ） (2023-11-14T05:13:55Z)
Large Language Models Only Pass Primary School Exams in Indonesia: A Comprehensive Test on IndoMMLU [31.555098850095817]
IndoMMLUはインドネシアの文化と言語に対する最初のマルチタスク言語理解ベンチマークである。インドネシアの小学校から大学への入学試験である。
論文参考訳（メタデータ） (2023-10-07T21:49:38Z)
C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models [58.42279750824907]
C-Evalは、中国語の文脈における基礎モデルの高度な知識と推論能力を評価するために設計された、中国初の総合的な評価スイートである。 C-Evalは、中学、高校、大学、専門職の4つの困難レベルにまたがる複数の質問を含んでいる。我々は、C-Eval上で最も先進的なLCMについて、英語と中国語の両方のモデルを含む包括的な評価を行う。
論文参考訳（メタデータ） (2023-05-15T03:20:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。