論文の概要: LAG-MMLU: Benchmarking Frontier LLM Understanding in Latvian and Giriama
- arxiv url: http://arxiv.org/abs/2503.11911v1
- Date: Fri, 14 Mar 2025 22:50:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:13.378791
- Title: LAG-MMLU: Benchmarking Frontier LLM Understanding in Latvian and Giriama
- Title(参考訳): LAG-MMLU:ラトビアとジリアマにおけるフロンティアLLMのベンチマーク
- Authors: Naome A. Etori, Kevin Lu, Randu Karisa, Arturs Kanepajs,
- Abstract要約: 本研究ではラトビアとジリアマの8つの言語モデル(LLM)を評価する。
OpenAIのo1モデルは、英語で92.8%、ラトビアで88.8%、グリアマで70.8%、全言語で他より優れています。
- 参考スコア(独自算出の注目度): 4.533057394214656
- License:
- Abstract: As large language models (LLMs) rapidly advance, evaluating their performance is critical. LLMs are trained on multilingual data, but their reasoning abilities are mainly evaluated using English datasets. Hence, robust evaluation frameworks are needed using high-quality non-English datasets, especially low-resource languages (LRLs). This study evaluates eight state-of-the-art (SOTA) LLMs on Latvian and Giriama using a Massive Multitask Language Understanding (MMLU) subset curated with native speakers for linguistic and cultural relevance. Giriama is benchmarked for the first time. Our evaluation shows that OpenAI's o1 model outperforms others across all languages, scoring 92.8\% in English, 88.8\% in Latvian, and 70.8\% in Giriama on 0-shot tasks. Mistral-large (35.6\%) and Llama-70B IT (41\%) have weak performance, on both Latvian and Giriama. Our results underscore the need for localized benchmarks and human evaluations in advancing cultural AI contextualization.
- Abstract(参考訳): 大規模言語モデル(LLM)が急速に進歩するにつれて、その性能を評価することが重要である。
LLMは多言語データに基づいて訓練されるが、その推論能力は主に英語のデータセットを用いて評価される。
したがって、高質な非英語データセット、特に低リソース言語(LRL)を用いて、ロバストな評価フレームワークが必要である。
本研究では,ラトビア語とギリアアマ語における8種類のSOTA (State-of-the-art) LLMを,母語話者による言語的・文化的関連性を考慮したMMLU (Massive Multitask Language Understanding) サブセットを用いて評価した。
Giriamaが初めてベンチマークされる。
評価の結果,OpenAIのo1モデルは,英語では92.8\%,ラトビアでは88.8\%,ギリアマでは70.8\%,全言語で他よりも優れていた。
Mistral-large (35.6\%)とLlama-70B IT (41\%)はラトビアとジリアマの両方で弱い性能を持つ。
我々の結果は、文化AIの文脈化を進める上で、局所的なベンチマークと人的評価の必要性を浮き彫りにしている。
関連論文リスト
- HellaSwag-Pro: A Large-Scale Bilingual Benchmark for Evaluating the Robustness of LLMs in Commonsense Reasoning [56.221060995324436]
大規模言語モデル(LLM)は、常識推論において顕著な能力を示している。
これらのモデルは、本当に常識的知識を理解しているのか、あるいは単に表現パターンを記憶しているだけなのか?
11,200のケースからなる大規模バイリンガルベンチマークであるHellaSwag-Proを紹介する。
論文 参考訳(メタデータ) (2025-02-17T03:24:02Z) - INJONGO: A Multicultural Intent Detection and Slot-filling Dataset for 16 African Languages [15.983678567785004]
スロットフィリングとインテント検出は、会話型AIにおいて確立されたタスクである。
Injongoは16のアフリカ言語のための、多文化でオープンソースのベンチマークデータセットです。
アフリカ文化の発話を西洋中心の発話に活用して言語間移動を改善する利点を示す。
論文 参考訳(メタデータ) (2025-02-13T23:17:10Z) - Bridging the Gap: Enhancing LLM Performance for Low-Resource African Languages with New Benchmarks, Fine-Tuning, and Cultural Adjustments [0.9214083577876088]
本稿では,8つの低リソースアフリカ言語において,約100万の人文翻訳語を新たにベンチマークデータとして生成する。
我々のベンチマークはウィノグランデの翻訳とMMLUの3つのセクション(大学医学、臨床知識、ウイルス学)である。
翻訳されたベンチマークを用いて、英語とアフリカ語におけるSOTA(State-of-the-art LLM)のパフォーマンスギャップについて報告する。
論文 参考訳(メタデータ) (2024-12-16T23:50:21Z) - One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本研究は,大言語モデル(LLM)の標準推論タスクにおける方言処理における妥当性と頑健さを客観的に評価することを目的とした最初の研究である。
我々は、コンピュータサイエンスのバックグラウンドの専門家を含むAAVEスピーカーを雇い、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えます。
以上の結果から,これら広く使用されているモデルのほとんどは,AAVEにおけるクエリに対する不安定さと不公平さを顕著に示していることがわかった。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.083861654053585]
IrokoBenchは17の原型的に異なる低リソースのアフリカ言語のための人間翻訳ベンチマークデータセットである。
IrokoBenchを使って、10のオープンおよび6つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップがあり、最高パフォーマンスのオープンモデルであるGemma 2 27Bは、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの63%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset [7.954348293179786]
様々な次元にわたる大規模言語モデル(LLM)の能力を評価するためのベンチマークであるCFLUEを提案する。
知識評価では、38K以上の質問と関連する解法の説明からなる。
アプリケーションアセスメントでは、テキスト分類、機械翻訳、関係抽出、読解、テキスト生成など、異なるNLPタスクのグループにまたがる16K以上のテストインスタンスが特徴である。
論文 参考訳(メタデータ) (2024-05-17T05:03:40Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。
MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。
分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文 参考訳(メタデータ) (2023-09-14T04:36:00Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。