論文の概要: Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation
- arxiv url: http://arxiv.org/abs/2412.03304v1
- Date: Wed, 04 Dec 2024 13:27:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 21:42:00.676612
- Title: Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation
- Title(参考訳): グローバルMMLU:多言語評価における文化的・言語的バイアスの理解と対応
- Authors: Shivalika Singh, Angelika Romanou, Clémentine Fourrier, David I. Adelani, Jian Gang Ngui, Daniel Vila-Suero, Peerat Limkonchotiwat, Kelly Marchisio, Wei Qi Leong, Yosephine Susanto, Raymond Ng, Shayne Longpre, Wei-Yin Ko, Madeline Smith, Antoine Bosselut, Alice Oh, Andre F. T. Martins, Leshem Choshen, Daphne Ippolito, Enzo Ferrante, Marzieh Fadaee, Beyza Ermis, Sara Hooker,
- Abstract要約: 多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。
改良されたMMLUであるGlobal-MMLUをリリースし,42言語を対象に評価を行った。
- 参考スコア(独自算出の注目度): 50.38159901496538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cultural biases in multilingual datasets pose significant challenges for their effectiveness as global benchmarks. These biases stem not only from language but also from the cultural knowledge required to interpret questions, reducing the practical utility of translated datasets like MMLU. Furthermore, translation often introduces artifacts that can distort the meaning or clarity of questions in the target language. A common practice in multilingual evaluation is to rely on machine-translated evaluation sets, but simply translating a dataset is insufficient to address these challenges. In this work, we trace the impact of both of these issues on multilingual evaluations and ensuing model performances. Our large-scale evaluation of state-of-the-art open and proprietary models illustrates that progress on MMLU depends heavily on learning Western-centric concepts, with 28% of all questions requiring culturally sensitive knowledge. Moreover, for questions requiring geographic knowledge, an astounding 84.9% focus on either North American or European regions. Rankings of model evaluations change depending on whether they are evaluated on the full portion or the subset of questions annotated as culturally sensitive, showing the distortion to model rankings when blindly relying on translated MMLU. We release Global-MMLU, an improved MMLU with evaluation coverage across 42 languages -- with improved overall quality by engaging with compensated professional and community annotators to verify translation quality while also rigorously evaluating cultural biases present in the original dataset. This comprehensive Global-MMLU set also includes designated subsets labeled as culturally sensitive and culturally agnostic to allow for more holistic, complete evaluation.
- Abstract(参考訳): 多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。
これらのバイアスは言語だけでなく、質問を解釈するために必要な文化的知識にも起因し、MMLUのような翻訳データセットの実用性を低下させる。
さらに、翻訳は、しばしば対象言語における質問の意味や明快さを歪めることができるアーティファクトを導入する。
多言語評価における一般的な実践は、機械翻訳評価セットに依存することであるが、これらの課題に対処するにはデータセットの翻訳が不十分である。
本研究では,これらの課題が多言語評価およびその後のモデル性能に与える影響を追究する。
我々の最先端のオープン・プロプライエタリなモデルに対する大規模な評価は、MMLUの進歩は西洋中心の概念の学習に大きく依存しており、すべての質問の28%は文化的に敏感な知識を必要としていることを示している。
さらに、地理的知識を必要とする質問に対しては、84.9%が北アメリカまたはヨーロッパ地域に焦点を当てている。
モデル評価のランクは,文化に敏感な質問の完全部分やサブセットに基づいて評価されるかによって変化し,翻訳MMLUに盲目的に依存する場合のモデルランキングの歪みを示す。
私たちはGlobal-MMLUをリリースした。これは42言語にわたる評価カバレッジを備えた改善されたMMLUで、元のデータセットに存在する文化的バイアスを厳格に評価しながら、補償されたプロフェッショナルおよびコミュニティアノテータと協力して、全体的な品質を改善している。
この包括的グローバルMMLUセットには、より包括的で完全な評価を可能にするために、文化的に敏感で文化的に無知とラベル付けされた指定されたサブセットも含まれている。
関連論文リスト
- Evaluating the Quality of Benchmark Datasets for Low-Resource Languages: A Case Study on Turkish [1.59623393716069]
本研究は、トルコの17のベンチマークデータセットの品質を評価することにより、堅牢で文化的に適切なベンチマークの必要性に対処する。
結果から,ベンチマークデータセットの70%が品質基準を満たしていないことがわかった。
GPT-4oは文法的および技術的なタスクに対してより強力なラベリング能力を持ち、Llama3.3-70Bは正確性と文化的知識の評価に優れる。
論文 参考訳(メタデータ) (2025-04-13T20:45:49Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。
5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。
我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - LLM-as-a-Judge & Reward Model: What They Can and Cannot Do [2.2469442203227863]
自動評価器の総合的な分析を行い,その挙動に関するいくつかの重要な知見を報告する。
英語の評価能力は言語固有の評価能力に大きく影響し,英語で訓練された評価者が他の言語に容易にスキルを伝達できることがわかった。
我々は、現在最先端の評価者が、英語と韓国語の両方において、複雑な推論問題の評価や生成の限界について、挑戦的なプロンプトに苦しむことに気付きました。
論文 参考訳(メタデータ) (2024-09-17T14:40:02Z) - Beyond Metrics: Evaluating LLMs' Effectiveness in Culturally Nuanced, Low-Resource Real-World Scenarios [29.56889133557681]
本研究では、WhatsAppチャットから派生したデータセットに対する感情分析において、7つの主要言語モデル(LLM)の性能を評価する。
Mistral-7bとMixtral-8x7bは高いF1スコアを得たが、GPT-3.5-Turbo, Llama-2-70b, Gemma-7bは言語的・文脈的ニュアンスを理解するのに苦労していた。
GPT-4とGPT-4-Turboは多様な言語入力を把握し、様々な文脈情報を管理するのに優れていた。
論文 参考訳(メタデータ) (2024-06-01T07:36:59Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。