Fugu-MT 論文翻訳(概要): A Scalable and Extensible Approach to Benchmarking NL2Code for 18 Programming Languages

論文の概要: A Scalable and Extensible Approach to Benchmarking NL2Code for 18 Programming Languages

arxiv url: http://arxiv.org/abs/2208.08227v2
Date: Fri, 19 Aug 2022 01:12:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-22 17:35:01.968016
Title: A Scalable and Extensible Approach to Benchmarking NL2Code for 18 Programming Languages
Title（参考訳）: 18のプログラミング言語に対するNL2Codeのベンチマークのためのスケーラブルで拡張可能なアプローチ
Authors: Federico Cassano, John Gouwar, Daniel Nguyen, Sydney Nguyen, Luna Phipps-Costin, Donald Pinckney, Ming Ho Yee, Yangtian Zi, Carolyn Jane Anderson, Molly Q Feldman, Arjun Guha, Michael Greenberg, Abhinav Jangda
Abstract要約: 我々は、自然言語からコード生成のための最初のマルチ言語並列ベンチマークであるMultiPL-Eを提案する。我々は,MultiPL-Eのコード生成モデルであるCodexとInCoderの2つを評価した。 MultiPL-Eで表現される言語の範囲は、言語周波数と言語特徴がモデル性能に与える影響を調査することができる。
参考スコア（独自算出の注目度）: 1.6312827172331896
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models have demonstrated the ability to condition on and generate both natural language and programming language text. Such models open up the possibility of multi-language code generation: could code generation models generalize knowledge from one language to another? Although contemporary code generation models can generate semantically correct Python code, little is known about their abilities with other languages. We facilitate the exploration of this topic by proposing MultiPL-E, the first multi-language parallel benchmark for natural-language-to-code-generation. MultiPL-E extends the HumanEval benchmark (Chen et al, 2021) to support 18 more programming languages, encompassing a range of programming paradigms and popularity. We evaluate two state-of-the-art code generation models on MultiPL-E: Codex and InCoder. We find that on several languages, Codex matches and even exceeds its performance on Python. The range of programming languages represented in MultiPL-E allow us to explore the impact of language frequency and language features on model performance. Finally, the MultiPL-E approach of compiling code generation benchmarks to new programming languages is both scalable and extensible. We describe a general approach for easily adding support for new benchmarks and languages to MultiPL-E.
Abstract（参考訳）: 大規模言語モデルは、自然言語とプログラミング言語のテキストの両方を条件付けし、生成する能力を示している。コード生成モデルは、ある言語から別の言語への知識を一般化できるだろうか? 現代のコード生成モデルは、セマンティックに正しいPythonコードを生成することができるが、他の言語との能力についてはほとんど知られていない。我々は、自然言語からコードへ生成する最初のマルチ言語並列ベンチマークであるMultiPL-Eを提案することにより、このトピックの探索を容易にする。 multipl-e は humaneval benchmark (chen et al, 2021) を拡張し、18のプログラミング言語をサポートし、様々なプログラミングパラダイムと人気を包含している。我々は,MultiPL-Eのコード生成モデルであるCodexとInCoderの評価を行った。いくつかの言語では、Codexが一致し、Pythonのパフォーマンスを超えています。 MultiPL-Eで表現される言語の範囲は、言語周波数と言語特徴がモデル性能に与える影響を調査することができる。最後に、コード生成ベンチマークを新しいプログラミング言語にコンパイルするMultiPL-Eアプローチは、スケーラブルで拡張性がある。我々はMultiPL-Eに新しいベンチマークや言語を簡単に追加するための一般的なアプローチについて述べる。

関連論文リスト

Multi-Programming Language Ensemble for Code Generation in Large Language Model [5.882816711878273]
大規模言語モデル(LLM)は、特にワンパスコード生成において、コード生成を大幅に改善した。既存のアプローチのほとんどは、単一のプログラミング言語でコードを生成することだけに重点を置いており、LLMの多言語機能を活用する可能性を見越している。本稿では,複数の言語にまたがるコード生成を利用して全体的な性能を向上させる,新しいアンサンブルに基づくMulti-Programming Language Ensemble (MPLE)を提案する。
論文参考訳（メタデータ） (2024-09-06T08:31:18Z)
Benchmarking LLM Code Generation for Audio Programming with Visual Dataflow Languages [1.559169421643164]
ノードベースのプログラミング言語は、メディアアートコーディングドメインでますます人気がある。 LLMベースのコード生成を使用して、創造的なアウトプットの障壁をさらに低くするというのは、エキサイティングな機会です。ビジュアルノードベースのプログラミング言語のためのコード生成の最良の戦略は、まだオープンな問題である。
論文参考訳（メタデータ） (2024-09-01T22:11:23Z)
CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。 Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文参考訳（メタデータ） (2024-08-23T11:43:00Z)
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。 CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文参考訳（メタデータ） (2024-05-03T02:48:55Z)
IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。 IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文参考訳（メタデータ） (2024-03-06T17:52:08Z)
Can Large Language Models Write Parallel Code? [0.5317767988097261]
大規模言語モデルは、ソフトウェア開発の一般的なツールになりつつある。本稿では,最先端言語モデルによる並列コード生成能力について検討する。
論文参考訳（メタデータ） (2024-01-23T08:25:12Z)
Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。これらのデータセットは10以上のプログラミング言語をカバーする。コード生成モデルの性能を多言語で評価することができる。
論文参考訳（メタデータ） (2022-10-26T17:17:06Z)
MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文参考訳（メタデータ） (2022-03-16T04:21:50Z)
A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。 Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。 GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文参考訳（メタデータ） (2022-02-26T15:53:55Z)
X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文参考訳（メタデータ） (2020-10-13T05:29:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。