論文の概要: HumanEval-XL: A Multilingual Code Generation Benchmark for Cross-lingual
Natural Language Generalization
- arxiv url: http://arxiv.org/abs/2402.16694v1
- Date: Mon, 26 Feb 2024 16:09:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 20:11:40.002310
- Title: HumanEval-XL: A Multilingual Code Generation Benchmark for Cross-lingual
Natural Language Generalization
- Title(参考訳): HumanEval-XL: 言語間自然言語一般化のための多言語コード生成ベンチマーク
- Authors: Qiwei Peng, Yekun Chai, Xuhong Li
- Abstract要約: HumanEval-XLは、多言語コード生成ベンチマークである。
22,080件のプロンプトで構成され、平均8.33件のテストケースがある。
複数のNLとPLの並列データを保証することで、HumanEval-XLは包括的な評価プラットフォームを提供する。
- 参考スコア(独自算出の注目度): 12.828672534539244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have made significant progress in generating
codes from textual prompts. However, existing benchmarks have mainly
concentrated on translating English prompts to multilingual codes or have been
constrained to very limited natural languages (NLs). These benchmarks have
overlooked the vast landscape of massively multilingual NL to multilingual
code, leaving a critical gap in the evaluation of multilingual LLMs. In
response, we introduce HumanEval-XL, a massively multilingual code generation
benchmark specifically crafted to address this deficiency. HumanEval-XL
establishes connections between 23 NLs and 12 programming languages (PLs), and
comprises of a collection of 22,080 prompts with an average of 8.33 test cases.
By ensuring parallel data across multiple NLs and PLs, HumanEval-XL offers a
comprehensive evaluation platform for multilingual LLMs, allowing the
assessment of the understanding of different NLs. Our work serves as a
pioneering step towards filling the void in evaluating NL generalization in the
area of multilingual code generation. We make our evaluation code and data
publicly available at \url{https://github.com/FloatAI/HumanEval-XL}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストプロンプトからコードを生成することに大きく進歩している。
しかし、既存のベンチマークは主に英語のプロンプトを多言語コードに翻訳するか、非常に制限された自然言語(nls)に制限されている。
これらのベンチマークは、多言語コードに対する膨大な多言語NLの展望を見落とし、多言語LLMの評価において重要なギャップを残している。
これに対しHumanEval-XLは,この欠陥に対処するために開発された多言語コード生成ベンチマークである。
HumanEval-XLは23のNLと12のプログラミング言語(PL)の接続を確立し、平均8.33のテストケースを持つ22,080のプロンプトからなる。
複数のNLとPLの並列データを保証することで、HumanEval-XLは多言語LLMのための総合的な評価プラットフォームを提供し、異なるNLの理解を評価することができる。
我々の研究は、多言語コード生成領域におけるNL一般化の評価において、空白を埋める先駆的なステップとなる。
評価コードとデータは \url{https://github.com/FloatAI/HumanEval-XL} で公開しています。
関連論文リスト
- OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - CroCoSum: A Benchmark Dataset for Cross-Lingual Code-Switched
Summarization [13.922079283288033]
近年,大規模Webマイニングデータセットの利用可能化により,言語間要約(CLS)への関心が高まっている。
我々はCroCoSumを紹介した。CroCoSumは、言語間のコード変更による技術ニュースの要約のデータセットである。
論文 参考訳(メタデータ) (2023-03-07T17:52:51Z) - ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for
Programming Languages [37.60016772021422]
同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。
近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。
ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
論文 参考訳(メタデータ) (2022-12-13T17:21:44Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。