論文の概要: IberBench: LLM Evaluation on Iberian Languages
- arxiv url: http://arxiv.org/abs/2504.16921v1
- Date: Wed, 23 Apr 2025 17:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 14:57:06.820967
- Title: IberBench: LLM Evaluation on Iberian Languages
- Title(参考訳): IberBench: Iber 言語の LLM 評価
- Authors: José Ángel González, Ian Borrego Obrador, Álvaro Romo Herrero, Areg Mikael Sarvazyan, Mara Chinea-Ríos, Angelo Basile, Marc Franco-Salvador,
- Abstract要約: 大規模言語モデル(LLM)は、特に英語以外の言語に対しては、包括的な評価が難しい。
IberBench は基本的な NLP タスクと産業関連 NLP タスクの両方において LLM 性能を評価するために設計されたベンチマークである。
1億から1400億のパラメータから23のLSMを評価し、その強度と限界に関する実証的な洞察を提供する。
- 参考スコア(独自算出の注目度): 2.3034630097498883
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) remain difficult to evaluate comprehensively, particularly for languages other than English, where high-quality data is often limited. Existing benchmarks and leaderboards are predominantly English-centric, with only a few addressing other languages. These benchmarks fall short in several key areas: they overlook the diversity of language varieties, prioritize fundamental Natural Language Processing (NLP) capabilities over tasks of industrial relevance, and are static. With these aspects in mind, we present IberBench, a comprehensive and extensible benchmark designed to assess LLM performance on both fundamental and industry-relevant NLP tasks, in languages spoken across the Iberian Peninsula and Ibero-America. IberBench integrates 101 datasets from evaluation campaigns and recent benchmarks, covering 22 task categories such as sentiment and emotion analysis, toxicity detection, and summarization. The benchmark addresses key limitations in current evaluation practices, such as the lack of linguistic diversity and static evaluation setups by enabling continual updates and community-driven model and dataset submissions moderated by a committee of experts. We evaluate 23 LLMs ranging from 100 million to 14 billion parameters and provide empirical insights into their strengths and limitations. Our findings indicate that (i) LLMs perform worse on industry-relevant tasks than in fundamental ones, (ii) performance is on average lower for Galician and Basque, (iii) some tasks show results close to random, and (iv) in other tasks LLMs perform above random but below shared task systems. IberBench offers open-source implementations for the entire evaluation pipeline, including dataset normalization and hosting, incremental evaluation of LLMs, and a publicly accessible leaderboard.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に高品質なデータが制限される英語以外の言語では、包括的な評価が難しいままである。
既存のベンチマークとリーダーボードは、主に英語中心であり、他の言語に対処する言語はごくわずかである。
これらのベンチマークは、言語品種の多様性を見落とし、産業関係のタスクよりも基礎的な自然言語処理(NLP)機能を優先し、静的である。
これらの点を念頭に置いて、イベリア半島とイベロ・アメリカで話されている言語において、基本的なNLPタスクと産業関連NLPタスクの両方においてLLM性能を評価するために設計された総合的かつ拡張可能なベンチマークであるIberBenchを紹介する。
IberBenchは評価キャンペーンと最近のベンチマークから101のデータセットを統合し、感情分析や感情分析、毒性検出、要約といった22のタスクカテゴリをカバーしている。
このベンチマークは、言語的多様性の欠如や静的評価設定の欠如など、現在の評価プラクティスにおける重要な制限に対処する。
1億から1400億のパラメータから23のLSMを評価し、その強度と限界に関する実証的な洞察を提供する。
私たちの発見は
一 LLM は、基本的なものよりも産業関連業務に悪影響を及ぼす。
(二)ガリシアやバスクではパフォーマンスが平均より低い。
(三)ランダムに近い結果を示すタスク、及び
(iv) 他のタスクでは、LLMはランダムな上、共有タスクシステムより下位で実行される。
IberBenchは、データセットの正規化とホスティング、LCMのインクリメンタル評価、公開可能なリーダボードなど、評価パイプライン全体のオープンソース実装を提供する。
関連論文リスト
- MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - MEDAL: A Framework for Benchmarking LLMs as Multilingual Open-Domain Chatbots and Dialogue Evaluators [8.672875654352689]
本稿では,対話評価ベンチマークの生成,評価,キュレートを行う自動マルチエージェントフレームワークであるMEDALを紹介する。
シードコンテキストの異なるユーザ-チャットボットの多言語対話を生成する。
次に、強いLLMを用いてチャットボットの性能を多次元的に解析し、顕著な言語間性能差を明らかにする。
その後、いくつかの推論と非推論 LLM がオープンドメイン対話の評価器として機能する能力を評価するためにベンチマークが使用される。
論文 参考訳(メタデータ) (2025-05-28T18:45:42Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language [16.21019515431378]
本稿では,大規模言語モデルの多言語生成能力を評価する新しいフレームワークMUG-Evalを提案する。
既存のベンチマークを会話タスクに変換し、それらのタスクに対するLCMの精度を測定します。
高、中、低リソースのカテゴリにまたがる30言語にわたる8つのLLMを評価し、MUG-Evalが確立されたベンチマークと強く相関していることを見出した。
論文 参考訳(メタデータ) (2025-05-20T14:14:00Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - Exploring the Multilingual NLG Evaluation Abilities of LLM-Based Evaluators [38.681443695708786]
本研究は,近年の10個のLLMの多言語評価性能を包括的に分析する。
参照応答をプロンプトから除外すると、様々な言語のパフォーマンスが向上することがわかった。
LLMに基づく評価器の多くは、低リソース言語よりも、高リソース言語における人間の判断と高い相関関係を示す。
論文 参考訳(メタデータ) (2025-03-06T12:04:29Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。
MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - Evalita-LLM: Benchmarking Large Language Models on Italian [3.3334839725239798]
Evalita-LLM(エヴァリタ-LLM)は、イタリア語のタスクでLarge Language Models(LLM)を評価するために設計されたベンチマークである。
すべてのタスクはネイティブなイタリア語であり、イタリア語からの翻訳の問題や潜在的な文化的偏見を避ける。
ベンチマークには生成タスクが含まれており、LLMとのより自然なインタラクションを可能にする。
論文 参考訳(メタデータ) (2025-02-04T12:58:19Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - ProverbEval: Exploring LLM Evaluation Challenges for Low-resource Language Understanding [15.93642619347214]
低リソース言語のためのLLM評価ベンチマークであるprovrbevalを導入する。
ネイティブ言語のpromrb記述はpromrb生成のようなタスクを大幅に改善する。
単言語評価は、生成タスクにおける言語間比較よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-07T06:34:48Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Are Large Language Model-based Evaluators the Solution to Scaling Up
Multilingual Evaluation? [20.476500441734427]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクに優れる。
彼らの評価、特に上位20ドルを超える言語では、既存のベンチマークとメトリクスの制限のため、依然として不十分である。
論文 参考訳(メタデータ) (2023-09-14T06:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。