論文の概要: ChiKhaPo: A Large-Scale Multilingual Benchmark for Evaluating Lexical Comprehension and Generation in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.16928v1
- Date: Sun, 19 Oct 2025 16:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.924158
- Title: ChiKhaPo: A Large-Scale Multilingual Benchmark for Evaluating Lexical Comprehension and Generation in Large Language Models
- Title(参考訳): ChiKhaPo: 大規模言語モデルにおける語彙理解と生成を評価するための大規模多言語ベンチマーク
- Authors: Emily Chang, Niyati Bafna,
- Abstract要約: 生成モデルの語彙的理解と生成能力を評価するために, 様々な難易度を持つ8つのサブタスクからなるChiKhaPoを紹介した。
ChiKhaPoは既存のレキシコン、モノリンガルデータ、bitextをベースとして、2つのサブタスクで2700以上の言語をカバーする。
- 参考スコア(独自算出の注目度): 4.615257892219717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks for large language models (LLMs) are largely restricted to high- or mid-resource languages, and often evaluate performance on higher-order tasks in reasoning and generation. However, plenty of evidence points to the fact that LLMs lack basic linguistic competence in the vast majority of the world's 3800+ written languages. We introduce ChiKhaPo, consisting of 8 subtasks of varying difficulty designed to evaluate the lexical comprehension and generation abilities of generative models. ChiKhaPo draws on existing lexicons, monolingual data, and bitext, and provides coverage for 2700+ languages for 2 subtasks, surpassing any existing benchmark in terms of language coverage. We further show that 6 SOTA models struggle on our benchmark, and discuss the factors contributing to performance scores, including language family, language resourcedness, task, and comprehension versus generation directions. With ChiKhaPo, we hope to enable and encourage the massively multilingual benchmarking of LLMs.
- Abstract(参考訳): 既存の大規模言語モデル(LLM)のベンチマークは、大部分は高あるいは中級の言語に限られており、推論と生成において高次タスクのパフォーマンスを評価することがしばしばある。
しかし、多くの証拠はLLMが3800以上の言語の大部分で基本的な言語能力に欠けていたことを示唆している。
生成モデルの語彙的理解と生成能力を評価するために, 様々な難易度を持つ8つのサブタスクからなるChiKhaPoを紹介した。
ChiKhaPoは既存のレキシコン、モノリンガルデータ、bitextをベースとして、2つのサブタスクで2700以上の言語をカバーする。
さらに、6つのSOTAモデルが我々のベンチマークで苦労していることを示し、言語ファミリー、言語資源性、タスク、理解と生成の方向性など、パフォーマンススコアに寄与する要因について議論する。
ChiKhaPoでは、LLMの大規模多言語ベンチマークの実現と促進を期待しています。
関連論文リスト
- MuBench: Assessment of Multilingual Capabilities of Large Language Models Across 61 Languages [33.450081592217074]
MuBenchは61の言語をカバーし、幅広い機能を評価するベンチマークです。
我々は、最先端の多言語LLMを評価し、請求項と実際の言語カバレッジとの間に顕著なギャップを見いだした。
論文 参考訳(メタデータ) (2025-06-24T09:53:00Z) - MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language [26.88208349402451]
本稿では,大規模言語モデルの多言語生成能力を評価する新しいフレームワークMUG-Evalを提案する。
既存のベンチマークを会話タスクに変換し、それらのタスクに対するLCMの精度を測定します。
高、中、低リソースのカテゴリにまたがる30言語にわたる8つのLLMを評価し、MUG-Evalが確立されたベンチマークと強く相関していることを見出した。
論文 参考訳(メタデータ) (2025-05-20T14:14:00Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。
我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。
我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文 参考訳(メタデータ) (2024-10-19T08:44:26Z) - Not All Languages Are Created Equal in LLMs: Improving Multilingual
Capability by Cross-Lingual-Thought Prompting [123.16452714740106]
大規模言語モデル(LLM)は印象的な多言語機能を示すが、その性能は言語によって大きく異なる。
XLT (cross-lingual- Thought prompting) という,シンプルで効果的な方法を提案する。
XLTは汎用テンプレートプロンプトで、言語間および論理的推論スキルを刺激し、言語間のタスクパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-05-11T17:44:17Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。