論文の概要: A Scalable and Extensible Approach to Benchmarking NL2Code for 18
Programming Languages
- arxiv url: http://arxiv.org/abs/2208.08227v2
- Date: Fri, 19 Aug 2022 01:12:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 17:35:01.968016
- Title: A Scalable and Extensible Approach to Benchmarking NL2Code for 18
Programming Languages
- Title(参考訳): 18のプログラミング言語に対するNL2Codeのベンチマークのためのスケーラブルで拡張可能なアプローチ
- Authors: Federico Cassano, John Gouwar, Daniel Nguyen, Sydney Nguyen, Luna
Phipps-Costin, Donald Pinckney, Ming Ho Yee, Yangtian Zi, Carolyn Jane
Anderson, Molly Q Feldman, Arjun Guha, Michael Greenberg, Abhinav Jangda
- Abstract要約: 我々は、自然言語からコード生成のための最初のマルチ言語並列ベンチマークであるMultiPL-Eを提案する。
我々は,MultiPL-Eのコード生成モデルであるCodexとInCoderの2つを評価した。
MultiPL-Eで表現される言語の範囲は、言語周波数と言語特徴がモデル性能に与える影響を調査することができる。
- 参考スコア(独自算出の注目度): 1.6312827172331896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have demonstrated the ability to condition on and
generate both natural language and programming language text. Such models open
up the possibility of multi-language code generation: could code generation
models generalize knowledge from one language to another? Although contemporary
code generation models can generate semantically correct Python code, little is
known about their abilities with other languages. We facilitate the exploration
of this topic by proposing MultiPL-E, the first multi-language parallel
benchmark for natural-language-to-code-generation.
MultiPL-E extends the HumanEval benchmark (Chen et al, 2021) to support 18
more programming languages, encompassing a range of programming paradigms and
popularity. We evaluate two state-of-the-art code generation models on
MultiPL-E: Codex and InCoder. We find that on several languages, Codex matches
and even exceeds its performance on Python. The range of programming languages
represented in MultiPL-E allow us to explore the impact of language frequency
and language features on model performance. Finally, the MultiPL-E approach of
compiling code generation benchmarks to new programming languages is both
scalable and extensible. We describe a general approach for easily adding
support for new benchmarks and languages to MultiPL-E.
- Abstract(参考訳): 大規模言語モデルは、自然言語とプログラミング言語のテキストの両方を条件付けし、生成する能力を示している。
コード生成モデルは、ある言語から別の言語への知識を一般化できるだろうか?
現代のコード生成モデルは、セマンティックに正しいPythonコードを生成することができるが、他の言語との能力についてはほとんど知られていない。
我々は、自然言語からコードへ生成する最初のマルチ言語並列ベンチマークであるMultiPL-Eを提案することにより、このトピックの探索を容易にする。
multipl-e は humaneval benchmark (chen et al, 2021) を拡張し、18のプログラミング言語をサポートし、様々なプログラミングパラダイムと人気を包含している。
我々は,MultiPL-Eのコード生成モデルであるCodexとInCoderの評価を行った。
いくつかの言語では、Codexが一致し、Pythonのパフォーマンスを超えています。
MultiPL-Eで表現される言語の範囲は、言語周波数と言語特徴がモデル性能に与える影響を調査することができる。
最後に、コード生成ベンチマークを新しいプログラミング言語にコンパイルするMultiPL-Eアプローチは、スケーラブルで拡張性がある。
我々はMultiPL-Eに新しいベンチマークや言語を簡単に追加するための一般的なアプローチについて述べる。
関連論文リスト
- IRCoder: Intermediate Representations Make Language Models Robust
Multilingual Code Generators [55.40713784611711]
本研究では,コンパイラ中間表現を活用することで,Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - Can Large Language Models Write Parallel Code? [0.5705145870944511]
大規模言語モデル(Large Language Models)は、ソフトウェア開発において、ますます人気のあるツールである。
本稿では,最先端言語モデルによる並列コード生成能力について検討する。
並列コードを生成する言語モデルの性能を評価するための420のタスクからなるベンチマークPCGBenchを提案する。
論文 参考訳(メタデータ) (2024-01-23T08:25:12Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - ERNIE-Code: Beyond English-Centric Cross-lingual Pretraining for
Programming Languages [37.60016772021422]
同じプログラミング言語(PL)を扱うソフトウェアエンジニアは、異なる自然言語(NL)を話し、その逆も話す。
近年の研究では、コンピュータプログラムにおける生成前訓練の有効性が実証されているが、それらは常に英語中心である。
ERNIE-Codeは116個のNLと6個のPLのための統合事前学習言語モデルである。
論文 参考訳(メタデータ) (2022-12-13T17:21:44Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z) - GLUECoS : An Evaluation Benchmark for Code-Switched NLP [17.066725832825423]
コード切替言語に対する評価ベンチマーク GLUECoS を提案する。
英語・ヒンディー語・英語・スペイン語におけるNLP課題について報告する。
我々は、人工的に生成されたコード切替データに基づいて、多言語モデルを微調整する。
論文 参考訳(メタデータ) (2020-04-26T13:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。