論文の概要: Towards Cross-Lingual LLM Evaluation for European Languages
- arxiv url: http://arxiv.org/abs/2410.08928v1
- Date: Thu, 17 Oct 2024 17:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 21:06:06.603312
- Title: Towards Cross-Lingual LLM Evaluation for European Languages
- Title(参考訳): ヨーロッパ言語における言語間LLM評価に向けて
- Authors: Klaudia Thellmann, Bernhard Stadler, Michael Fromm, Jasper Schulze Buschhoff, Alex Jude, Fabio Barth, Johannes Leveling, Nicolas Flores-Herr, Joachim Köhler, René Jäkel, Mehdi Ali,
- Abstract要約: ヨーロッパ言語に適した言語間評価手法を提案する。
ヨーロッパ21言語にまたがる40のLLMの能力を評価するために,広く使用されている5つのベンチマークの翻訳版を採用した。
- 参考スコア(独自算出の注目度): 3.3917876450975317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of Large Language Models (LLMs) has revolutionized natural language processing across numerous languages and tasks. However, evaluating LLM performance in a consistent and meaningful way across multiple European languages remains challenging, especially due to the scarcity of multilingual benchmarks. We introduce a cross-lingual evaluation approach tailored for European languages. We employ translated versions of five widely-used benchmarks to assess the capabilities of 40 LLMs across 21 European languages. Our contributions include examining the effectiveness of translated benchmarks, assessing the impact of different translation services, and offering a multilingual evaluation framework for LLMs that includes newly created datasets: EU20-MMLU, EU20-HellaSwag, EU20-ARC, EU20-TruthfulQA, and EU20-GSM8K. The benchmarks and results are made publicly available to encourage further research in multilingual LLM evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)の台頭は、多くの言語やタスクにわたる自然言語処理に革命をもたらした。
しかし、特にマルチリンガルベンチマークが不足しているため、複数のヨーロッパ言語にまたがる一貫した有意義な評価は依然として困難である。
ヨーロッパ言語に適した言語間評価手法を提案する。
ヨーロッパ21言語にまたがる40のLLMの能力を評価するために,広く使用されている5つのベンチマークの翻訳版を採用した。
コントリビューションには、翻訳ベンチマークの有効性の検証、異なる翻訳サービスの影響の評価、新たに作成されたデータセットを含むLLMの多言語評価フレームワークの提供、EU20-MMLU、EU20-HellaSwag、EU20-ARC、EU20-TruthfulQA、EU20-GSM8Kなどが含まれています。
ベンチマークと結果が公開され、多言語LLM評価のさらなる研究が奨励されている。
関連論文リスト
- Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Cross-Lingual Auto Evaluation for Assessing Multilingual LLMs [36.30321941154582]
Herculeは、英語で利用可能な参照回答に基づいて、応答にスコアを割り当てることを学ぶ言語間評価モデルである。
本研究は,LLMを用いた言語横断評価の総合的研究であり,多言語評価のためのスケーラブルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-17T09:45:32Z) - Teuken-7B-Base & Teuken-7B-Instruct: Towards European LLMs [29.595342315049106]
我々は、欧州連合の24の公用語すべてをサポートすることで、ヨーロッパの言語多様性を受け入れるように設計された2つの多言語LLMを提示する。
モデルの開発原則、すなわちデータ構成、トークン化最適化、トレーニング方法論について詳述する。
論文 参考訳(メタデータ) (2024-09-30T16:05:38Z) - EuroLLM: Multilingual Language Models for Europe [76.89545643715368]
オープンウェイトな多言語LLMの開発を目的としたEuroLLMプロジェクトを紹介した。
これまでの進捗状況を概説し、データ収集とフィルタリングプロセスについて詳述する。
マルチリンガル・ジェネラル・ベンチマークと機械翻訳の性能について報告する。
論文 参考訳(メタデータ) (2024-09-24T16:51:36Z) - LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback [61.23008372927665]
我々はLLaMAとBLOOMの多言語機能を100言語に拡張するxLLMs-100を紹介する。
5つの多言語ベンチマークでxLLMs-100の多言語理解と生成能力を評価する。
論文 参考訳(メタデータ) (2024-06-03T20:25:12Z) - Quantifying Multilingual Performance of Large Language Models Across Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。
彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文 参考訳(メタデータ) (2023-09-14T06:41:58Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。