Fugu-MT 論文翻訳(概要): HumanEval-XL: A Multilingual Code Generation Benchmark for Cross-lingual Natural Language Generalization

論文の概要: HumanEval-XL: A Multilingual Code Generation Benchmark for Cross-lingual Natural Language Generalization

arxiv url: http://arxiv.org/abs/2402.16694v1
Date: Mon, 26 Feb 2024 16:09:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 20:11:40.002310
Title: HumanEval-XL: A Multilingual Code Generation Benchmark for Cross-lingual Natural Language Generalization
Title（参考訳）: HumanEval-XL: 言語間自然言語一般化のための多言語コード生成ベンチマーク
Authors: Qiwei Peng, Yekun Chai, Xuhong Li
Abstract要約: HumanEval-XLは、多言語コード生成ベンチマークである。 22,080件のプロンプトで構成され、平均8.33件のテストケースがある。複数のNLとPLの並列データを保証することで、HumanEval-XLは包括的な評価プラットフォームを提供する。
参考スコア（独自算出の注目度）: 12.828672534539244
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have made significant progress in generating codes from textual prompts. However, existing benchmarks have mainly concentrated on translating English prompts to multilingual codes or have been constrained to very limited natural languages (NLs). These benchmarks have overlooked the vast landscape of massively multilingual NL to multilingual code, leaving a critical gap in the evaluation of multilingual LLMs. In response, we introduce HumanEval-XL, a massively multilingual code generation benchmark specifically crafted to address this deficiency. HumanEval-XL establishes connections between 23 NLs and 12 programming languages (PLs), and comprises of a collection of 22,080 prompts with an average of 8.33 test cases. By ensuring parallel data across multiple NLs and PLs, HumanEval-XL offers a comprehensive evaluation platform for multilingual LLMs, allowing the assessment of the understanding of different NLs. Our work serves as a pioneering step towards filling the void in evaluating NL generalization in the area of multilingual code generation. We make our evaluation code and data publicly available at \url{https://github.com/FloatAI/HumanEval-XL}.
Abstract（参考訳）: 大規模言語モデル(LLM)は、テキストプロンプトからコードを生成することに大きく進歩している。しかし、既存のベンチマークは主に英語のプロンプトを多言語コードに翻訳するか、非常に制限された自然言語(nls)に制限されている。これらのベンチマークは、多言語コードに対する膨大な多言語NLの展望を見落とし、多言語LLMの評価において重要なギャップを残している。これに対しHumanEval-XLは,この欠陥に対処するために開発された多言語コード生成ベンチマークである。 HumanEval-XLは23のNLと12のプログラミング言語(PL)の接続を確立し、平均8.33のテストケースを持つ22,080のプロンプトからなる。複数のNLとPLの並列データを保証することで、HumanEval-XLは多言語LLMのための総合的な評価プラットフォームを提供し、異なるNLの理解を評価することができる。我々の研究は、多言語コード生成領域におけるNL一般化の評価において、空白を埋める先駆的なステップとなる。評価コードとデータは \url{https://github.com/FloatAI/HumanEval-XL} で公開しています。

関連論文リスト

Evaluating Code-Mixing in LLMs Across 18 Languages [9.241002681667378]
会話の中で言語を切り替えるコードミキシングは、自然言語処理に特有の課題を提示している。 LinCEやGLUECoSといった既存のベンチマークは、狭い言語ペアリングとタスクによって制限されている。 7つの言語ファミリーから18言語にまたがるコード混合データに対して,大規模言語モデルの性能を包括的に評価する。
論文参考訳（メタデータ） (2025-07-24T20:24:33Z)
mHumanEval -- A Multilingual Benchmark to Evaluate Large Language Models for Code Generation [28.531581489405745]
mHumanEvalは200以上の自然言語でプロンプトをサポートする拡張ベンチマークである。我々は15の多様な自然言語(NL)に対して専門的な人文翻訳を提供する。我々は,SOTA (State-of-the-art) Code LLMの多言語コード生成能力を解析して結論付ける。
論文参考訳（メタデータ） (2024-10-19T08:44:26Z)
CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。 Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文参考訳（メタデータ） (2024-08-23T11:43:00Z)
Bridging the Language Gap: Enhancing Multilingual Prompt-Based Code Generation in LLMs via Zero-Shot Cross-Lingual Transfer [5.355430735475281]
本稿では,多言語プロンプトベースのコード生成の複雑さについて検討する。評価の結果,非英語のプロンプトにおけるコード品質の相違が明らかとなった。本稿では,ニューラルプロジェクション手法を用いたゼロショット言語間アプローチを提案する。
論文参考訳（メタデータ） (2024-08-19T05:11:46Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback [61.23008372927665]
我々はLLaMAとBLOOMの多言語機能を100言語に拡張するxLLMs-100を紹介する。 5つの多言語ベンチマークでxLLMs-100の多言語理解と生成能力を評価する。
論文参考訳（メタデータ） (2024-06-03T20:25:12Z)
OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文参考訳（メタデータ） (2024-02-21T04:42:41Z)
ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for Programming Languages [37.60016772021422]
同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。 ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
論文参考訳（メタデータ） (2022-12-13T17:21:44Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。