Fugu-MT 論文翻訳(概要): MILU: A Multi-task Indic Language Understanding Benchmark

論文の概要: MILU: A Multi-task Indic Language Understanding Benchmark

arxiv url: http://arxiv.org/abs/2411.02538v1
Date: Mon, 04 Nov 2024 19:17:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.326076
Title: MILU: A Multi-task Indic Language Understanding Benchmark
Title（参考訳）: MILU: ベンチマークを理解するマルチタスクのインデックス言語
Authors: Sshubam Verma, Mohammed Safi Ur Rahman Khan, Vishwajeet Kumar, Rudra Murthy, Jaydeep Sen,
Abstract要約: 既存のベンチマークは主に英語に焦点を当てており、Indic言語における大規模言語モデルの評価においてかなりのギャップを残している。このギャップに対処するために設計された総合評価ベンチマークMILUを紹介する。インド中心のデザインにより、MILUは地域や州レベルの試験の資料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。
参考スコア（独自算出の注目度）: 7.652738829153342
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluating Large Language Models (LLMs) in low-resource and linguistically diverse languages remains a significant challenge in NLP, particularly for languages using non-Latin scripts like those spoken in India. Existing benchmarks predominantly focus on English, leaving substantial gaps in assessing LLM capabilities in these languages. We introduce MILU, a Multi task Indic Language Understanding Benchmark, a comprehensive evaluation benchmark designed to address this gap. MILU spans 8 domains and 42 subjects across 11 Indic languages, reflecting both general and culturally specific knowledge. With an India-centric design, incorporates material from regional and state-level examinations, covering topics such as local history, arts, festivals, and laws, alongside standard subjects like science and mathematics. We evaluate over 42 LLMs, and find that current LLMs struggle with MILU, with GPT-4o achieving the highest average accuracy at 72 percent. Open multilingual models outperform language-specific fine-tuned models, which perform only slightly better than random baselines. Models also perform better in high resource languages as compared to low resource ones. Domain-wise analysis indicates that models perform poorly in culturally relevant areas like Arts and Humanities, Law and Governance compared to general fields like STEM. To the best of our knowledge, MILU is the first of its kind benchmark focused on Indic languages, serving as a crucial step towards comprehensive cultural evaluation. All code, benchmarks, and artifacts will be made publicly available to foster open research.
Abstract（参考訳）: 低リソースおよび多言語言語におけるLLM(Large Language Model)の評価は、特にインドで話されているようなラテン文字以外の言語では、NLPにおいて重要な課題である。既存のベンチマークは主に英語に重点を置いており、これらの言語でLLMの能力を評価するのにかなりのギャップを残している。このギャップに対処するために設計された総合評価ベンチマークであるMILU(Multi Task Indic Language Understanding Benchmark)を紹介する。 MILUは、11のIndic言語にまたがる8つのドメインと42の主題にまたがっており、一般的な知識と文化的な知識の両方を反映している。インド中心のデザインでは、地域や州レベルの試験の材料を取り入れ、地域の歴史、芸術、祭典、法律などのトピックを科学や数学のような標準的な主題と共にカバーしている。その結果,現在のLCMはMILUに苦戦しており,GPT-4oは平均精度が72%に達していることがわかった。オープンな多言語モデルは言語固有の微調整モデルよりも優れており、ランダムなベースラインよりもわずかに優れている。モデルは低リソース言語に比べて高リソース言語でもパフォーマンスが良い。ドメインワイズ分析(Domain-wise analysis)は、STEMのような一般的な分野と比較して、芸術、人文、法、ガバナンスといった文化的に関係のある領域では、モデルが不十分であることを示している。私たちの知る限りでは、MILUはIndic言語に焦点を当てた最初のベンチマークであり、総合的な文化的評価への重要なステップとなっている。すべてのコード、ベンチマーク、アーティファクトは、オープンな研究を促進するために公開されます。

関連論文リスト

Multilingual Large Language Models do not comprehend all natural languages to equal degrees [3.1312895682585595]
大規模言語モデル(LLM)は、人間が情報にアクセスする方法において重要な役割を果たす。ほとんどのベンチマークでは、西洋語、教育語、工業化語、リッチ語、民主語(WEIRD)の言語でLLMを評価する。言語理解タスクにおいて,12言語にまたがる3つの人気モデルを提案する。以上の結果から,類型的に多様な言語にまたがって,言語学的精度が著しく向上していることが示唆された。
論文参考訳（メタデータ） (2026-02-23T17:22:46Z)
From Phonemes to Meaning: Evaluating Large Language Models on Tamil [1.0493506909428438]
ILAKANAMは、スリランカの学校レベルのタミル語検定論文から820の質問を手作業で収集した最初のタミル語別言語評価ベンチマークである。我々の結果は、Gemini 2.5が全体的なパフォーマンスを最高に達成し、オープンソースモデルは遅れていることを示している。モデル全体の性能と言語カテゴリーを識別する能力の間に強い相関関係は見られず、実際の理解よりも露出によってパフォーマンスが引き起こされる可能性があることを示唆している。
論文参考訳（メタデータ） (2025-11-15T23:41:16Z)
SinhalaMMLU: A Comprehensive Benchmark for Evaluating Multitask Language Understanding in Sinhala [39.525952729268994]
SinhalaMMLUは、Sinhala専用に設計された最初の複数選択質問応答ベンチマークである。このデータセットには、スリランカの国家カリキュラムに適合する2次教育レベルにまたがる7000以上の質問が含まれている。 SinhalaMMLU 上で26個の LLM を評価し,Claude 3.5 sonnet と GPT-4o がそれぞれ 67% と 62% の最高精度で達成されているのに対して,モデル全体の性能は限定的である。
論文参考訳（メタデータ） (2025-09-03T09:22:39Z)
MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs [56.87573414161703]
大規模言語モデル(LLM)を評価するベンチマークであるMultiNRC(MultiNRC)を導入する。 MultiNRCは4つの中核的推論カテゴリをカバーしている: 言語固有の言語推論、単語プレイとライドル、文化的/トラディション推論、文化的関連性のある数学推論である。文化的・貿易的推論や文化的関連性を考慮した数学的推論については、英語に習熟した母語話者のマニュアル翻訳による多言語質問の英訳も提供する。
論文参考訳（メタデータ） (2025-07-23T12:56:31Z)
BnMMLU: Measuring Massive Multitask Language Understanding in Bengali [0.0]
本稿では,ベンガル語モデルにおける言語理解能力を評価するベンチマークであるBnMMLUを紹介する。データセットは科学、人文科学、数学、一般知識を含む23の領域にまたがる。我々は、BnMMLUテストセット上で、プロプライエタリでオープンソースの大規模言語モデル(LLM)をベンチマークする。
論文参考訳（メタデータ） (2025-05-25T02:54:31Z)
Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。その結果,2つの領域間に大きな性能差が認められた。
論文参考訳（メタデータ） (2025-05-22T12:27:02Z)
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
TUMLU: A Unified and Native Language Understanding Benchmark for Turkic Languages [2.115206401188031]
本稿では,テュルク語MMLUのTUMLUとTUMLU-miniの2つのベンチマークを提案する。 TUMLU-miniは、アゼルバイジャン語、クリミア・タタール語、カラカルパック語、カザフ語、タタール語、トルコ語、ウイグル語、ウズベク語で11人の学者からなる中・高校レベルの質問からなる。また、より簡潔でバランスの取れた、手作業によるデータセットのサブセットであるTUMLU-miniも提示します。
論文参考訳（メタデータ） (2025-02-16T07:07:38Z)
IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding [2.062076715606512]
インド亜大陸の15億人以上の人々によって知られており、Indic言語は自然言語処理(NLP)の研究に固有の課題と機会を提示している。 IndicMMLU-Proは、Indic言語全体にわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
論文参考訳（メタデータ） (2025-01-27T03:19:03Z)
INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge [36.234295907476515]
機能的大規模言語モデル(LLM)の開発は、英語以外の言語における高品質な評価資源の欠如によってボトルネックとなっている。本研究では,各地域における多言語LLMの能力を評価するため,現地試験資料から197,243対のQAペアの評価スイートを構築した。
論文参考訳（メタデータ） (2024-11-29T16:03:14Z)
All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文参考訳（メタデータ） (2024-11-25T15:44:42Z)
MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models [3.961168847961322]
大型言語モデル(LLM)は、人間の好みや判断のプロキシとして機能するタスクの評価器として一般的に用いられる。既存のベンチマークは主に英語に重点を置いており、非英語の文脈における評価者としてのLLMの有効性についての限られた洞察を提供している。 MM-Evalは6つのカテゴリにまたがる18言語をカバーする多言語メタ評価ベンチマークである。
論文参考訳（メタデータ） (2024-10-23T06:04:55Z)
Better to Ask in English: Evaluation of Large Language Models on English, Low-resource and Cross-Lingual Settings [12.507989493130175]
GPT-4, Llama 2 および Gemini は, 東南アジアの他の低リソース言語と比較して, 英語での有効性が評価されている。 GPT-4はLlama 2とGeminiを5つのプロンプト設定と全言語で上回ったことを示唆している。
論文参考訳（メタデータ） (2024-10-17T02:12:30Z)
One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本研究は,大言語モデル(LLM)の標準推論タスクにおける方言処理における妥当性と頑健さを客観的に評価することを目的とした最初の研究である。我々は、コンピュータサイエンスのバックグラウンドの専門家を含むAAVEスピーカーを雇い、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えます。以上の結果から,これら広く使用されているモデルのほとんどは,AAVEにおけるクエリに対する不安定さと不公平さを顕著に示していることがわかった。
論文参考訳（メタデータ） (2024-10-14T18:44:23Z)
Do Large Language Models Speak All Languages Equally? A Comparative Study in Low-Resource Settings [12.507989493130175]
大規模言語モデル (LLM) は自然言語処理 (NLP) に大きな関心を寄せている。近年の研究では、低リソース言語におけるLLMの限界が強調されている。英語からバングラ語、ヒンディー語、ウルドゥー語に翻訳することで、感情と憎悪の音声タスクのデータセットを提示する。
論文参考訳（メタデータ） (2024-08-05T05:09:23Z)
Quantifying Multilingual Performance of Large Language Models Across Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文参考訳（メタデータ） (2024-04-17T16:53:16Z)
MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。 MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。 MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文参考訳（メタデータ） (2024-04-07T15:23:28Z)
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文参考訳（メタデータ） (2024-02-21T04:42:41Z)
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文参考訳（メタデータ） (2023-10-31T08:09:20Z)
BenLLMEval: A Comprehensive Evaluation into the Potentials and Pitfalls of Large Language Models on Bengali NLP [17.362068473064717]
大規模言語モデル(LLM)は、NLPにおいて最も重要なブレークスルーの1つである。本稿では,ベンガル語での性能をベンチマークするために,LLMを総合的に評価するBenLLM-Evalを紹介する。実験の結果、ベンガルのNLPタスクではゼロショットLLMは、現在のSOTA微調整モデルよりも性能が向上することが示された。
論文参考訳（メタデータ） (2023-09-22T20:29:34Z)
CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文参考訳（メタデータ） (2023-06-15T15:49:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。