論文の概要: Charting the European LLM Benchmarking Landscape: A New Taxonomy and a Set of Best Practices
- arxiv url: http://arxiv.org/abs/2510.24450v1
- Date: Tue, 28 Oct 2025 14:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.224125
- Title: Charting the European LLM Benchmarking Landscape: A New Taxonomy and a Set of Best Practices
- Title(参考訳): 欧州 LLM ベンチマークランドスケープのグラフ化:新しい分類法とベストプラクティスのセット
- Authors: Špela Vintar, Taja Kuzman Pungeršek, Mojca Brglez, Nikola Ljubešić,
- Abstract要約: 本稿では,多言語あるいは非英語の使用シナリオに適したベンチマークの分類のための新しい分類法を提案する。
また、ヨーロッパの言語のためのベンチマークをより協調的に開発するためのベストプラクティスと品質基準も提案します。
- 参考スコア(独自算出の注目度): 0.3333209898517398
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While new benchmarks for large language models (LLMs) are being developed continuously to catch up with the growing capabilities of new models and AI in general, using and evaluating LLMs in non-English languages remains a little-charted landscape. We give a concise overview of recent developments in LLM benchmarking, and then propose a new taxonomy for the categorization of benchmarks that is tailored to multilingual or non-English use scenarios. We further propose a set of best practices and quality standards that could lead to a more coordinated development of benchmarks for European languages. Among other recommendations, we advocate for a higher language and culture sensitivity of evaluation methods.
- Abstract(参考訳): 大規模言語モデル(LLM)の新たなベンチマークは、新しいモデルやAI全般の能力向上に追いつくために、継続的に開発されているが、非英語言語でのLSMの使用と評価は、まだほとんど見当たらない状況である。
本稿では,LLMベンチマークの最近の展開を簡潔に概説するとともに,多言語および非英語の使用シナリオに合わせたベンチマークの分類のための新しい分類法を提案する。
さらに、ヨーロッパ言語のベンチマークをより協調的に開発するためのベストプラクティスと品質基準のセットを提案します。
その他の推奨事項として,評価手法のより高い言語と文化感受性を提唱する。
関連論文リスト
- M-IFEval: Multilingual Instruction-Following Evaluation [2.624902795082451]
文献からのインストラクション追従評価(IFEval)ベンチマークは、客観的基準を用いてこれを行う。
英語の命令のみを含み、他の言語でのLLMを評価する能力を制限する。
本稿では,M-IFEval(Multilingual Instruction Following Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-07T06:27:04Z) - Evalita-LLM: Benchmarking Large Language Models on Italian [3.3334839725239798]
Evalita-LLM(エヴァリタ-LLM)は、イタリア語のタスクでLarge Language Models(LLM)を評価するために設計されたベンチマークである。
すべてのタスクはネイティブなイタリア語であり、イタリア語からの翻訳の問題や潜在的な文化的偏見を避ける。
ベンチマークには生成タスクが含まれており、LLMとのより自然なインタラクションを可能にする。
論文 参考訳(メタデータ) (2025-02-04T12:58:19Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark [12.729687989535359]
大規模言語モデル(LLM)を英語以外の言語で評価することは、その言語的汎用性、文化的妥当性、そして多様なグローバルな文脈における適用性を保証するために不可欠である。
InVALSIテストは、イタリア全土の教育能力を測定するために設計された、確立された評価セットである。
論文 参考訳(メタデータ) (2024-06-25T13:20:08Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - This is the way: designing and compiling LEPISZCZE, a comprehensive NLP
benchmark for Polish [5.8090623549313944]
ポーランドNLPの新しい総合ベンチマークであるLEPISZCZEを紹介する。
ポーランドのベンチマークから5つのデータセットを使用し、8つの新しいデータセットを追加しています。
我々はポーランド語のためのベンチマークを作成しながら学んだ洞察と経験を提供し、他の低リソース言語のための同様のベンチマークを設計する青写真を提供する。
論文 参考訳(メタデータ) (2022-11-23T16:51:09Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。