論文の概要: BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models
- arxiv url: http://arxiv.org/abs/2502.07346v1
- Date: Tue, 11 Feb 2025 08:17:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:08:13.372853
- Title: BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models
- Title(参考訳): BenchMAX: 大規模言語モデルのための総合的多言語評価スイート
- Authors: Xu Huang, Wenhao Zhu, Hanxu Hu, Conghui He, Lei Li, Shujian Huang, Fei Yuan,
- Abstract要約: マルチウェイ多言語評価ベンチマークであるBenchMAXを紹介する。
高品質を維持するために、3つの異なるネイティブなアノテータがそれぞれのサンプルに独立してアノテートする。
BenchMAXの大規模な実験は、言語間のコア機能のさまざまな効果を明らかにしている。
- 参考スコア(独自算出の注目度): 44.759766566414626
- License:
- Abstract: Previous multilingual benchmarks focus primarily on simple understanding tasks, but for large language models(LLMs), we emphasize proficiency in instruction following, reasoning, long context understanding, code generation, and so on. However, measuring these advanced capabilities across languages is underexplored. To address the disparity, we introduce BenchMAX, a multi-way multilingual evaluation benchmark that allows for fair comparisons of these important abilities across languages. To maintain high quality, three distinct native-speaking annotators independently annotate each sample within all tasks after the data was machine-translated from English into 16 other languages. Additionally, we present a novel translation challenge stemming from dataset construction. Extensive experiments on BenchMAX reveal varying effectiveness of core capabilities across languages, highlighting performance gaps that cannot be bridged by simply scaling up model size. BenchMAX serves as a comprehensive multilingual evaluation platform, providing a promising test bed to promote the development of multilingual language models. The dataset and code are publicly accessible.
- Abstract(参考訳): 従来の多言語ベンチマークは主に単純な理解タスクに重点を置いていたが、大規模言語モデル(LLM)では、命令追従、推論、長い文脈理解、コード生成などの習熟度を強調している。
しかし、言語間でのこれらの高度な能力の測定は過小評価されている。
この相違に対処するために、言語間でこれらの重要な能力の公平な比較を可能にするマルチウェイ多言語評価ベンチマークであるBenchMAXを紹介した。
高品質を維持するために、3つの異なるネイティブなアノテータは、データが英語から16の他の言語に機械翻訳された後、すべてのタスクにそれぞれ独立してアノテートする。
さらに,データセット構築に基づく新しい翻訳課題を提案する。
BenchMAXの大規模な実験は、言語間のコア機能のさまざまな効果を明らかにし、単にモデルサイズをスケールアップするだけではブリッジできないパフォーマンスギャップを強調している。
BenchMAXは包括的な多言語評価プラットフォームとして機能し、多言語言語モデルの開発を促進するための有望なテストベッドを提供する。
データセットとコードは一般公開されている。
関連論文リスト
- GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Are pre-trained text representations useful for multilingual and
multi-dimensional language proficiency modeling? [6.294759639481189]
本稿では,多次元多言語習熟度分類における事前学習および微調整多言語組込みの役割に関する実験と観察について述べる。
提案手法は,多言語習熟度モデリングに有用であるが,どの特徴も言語習熟度の全次元において一貫した最高の性能を得られていないことを示唆する。
論文 参考訳(メタデータ) (2021-02-25T16:23:52Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。