論文の概要: Execution-Based Evaluation for Open-Domain Code Generation
- arxiv url: http://arxiv.org/abs/2212.10481v2
- Date: Fri, 19 May 2023 14:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 19:13:07.194978
- Title: Execution-Based Evaluation for Open-Domain Code Generation
- Title(参考訳): 実行に基づくオープンドメインコード生成の評価
- Authors: Zhiruo Wang, Shuyan Zhou, Daniel Fried, Graham Neubig
- Abstract要約: ODEXは、Pythonコード生成データセットの最初のOpen-Domain Executionベースの自然言語(NL)である。
ODEXには79の多様なライブラリにまたがる945のNL-Codeペアと1,707の人間が書いたテストケースがある。
ODEXは英語、スペイン語、日本語、ロシア語の4つの自然言語をインテントとしてサポートしている。
- 参考スコア(独自算出の注目度): 81.96731162394445
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: To extend the scope of coding queries to more realistic settings, we propose
ODEX, the first Open-Domain EXecution-based natural language (NL) to Python
code generation dataset. ODEX has 945 NL-Code pairs spanning 79 diverse
libraries, along with 1,707 human-written test cases for execution. Our NL-Code
pairs are harvested from StackOverflow forums to encourage natural and
practical coding queries. Moreover, ODEX supports four natural languages as
intents, in English, Spanish, Japanese, and Russian. ODEX unveils intriguing
behavioral differences among top-performing code language models (LM). While
CODEX achieves better overall results, CODEGEN improves effectively via scaling
-- CODEGEN 6.1B performs comparably with CODEX 12B. Both models show
substantial gaps between open and closed domains, but CODEGEN gaps tend to
decrease with model size while CODEX gaps increase. We release ODEX to
facilitate research into open-domain problems for the code generation
community.
- Abstract(参考訳): コーディングクエリのスコープをより現実的な設定に拡張するため、最初のオープンドメイン実行ベース自然言語(NL)であるODEXをPythonコード生成データセットに提案する。
ODEXには79の多様なライブラリにまたがる945のNL-Codeペアと1,707の人間が書いたテストケースがある。
当社のNL-CodeペアはStackOverflowフォーラムから取得して,自然かつ実用的なコーディングクエリを奨励しています。
さらに、ODEXは英語、スペイン語、日本語、ロシア語の4つの自然言語を意図としてサポートしている。
ODEXは、最高のパフォーマンスのコード言語モデル(LM)間の興味深い振る舞いの違いを公表している。
CODEGEN 6.1BはCODEX 12Bと互換性のあるパフォーマンスを実現している。
どちらのモデルも開域と閉域の間にかなりのギャップを示すが、CODEGENギャップはモデルサイズとともに減少し、CODEXギャップは増加する。
我々は、コード生成コミュニティのオープンドメイン問題の研究を促進するためにODEXをリリースします。
関連論文リスト
- DeepSeek-Coder: When the Large Language Model Meets Programming -- The
Rise of Code Intelligence [42.517055368627226]
私たちはDeepSeek-Coderシリーズを紹介します。これは、サイズが1.3Bから33Bまでのオープンソースのコードモデルで、2兆トークンでゼロからトレーニングされています。
評価の結果、DeepSeek-Coderは複数のベンチマークでオープンソースのコードモデル間で最先端のパフォーマンスを実現していることがわかった。
DeepSeek-Coderモデルは、調査と制限なしの商用使用の両方を可能にする寛容なライセンス下にある。
論文 参考訳(メタデータ) (2024-01-25T14:17:53Z) - XGen-7B Technical Report [138.71625147048377]
XGenは、最大1.5Tトークンに対して最大8Kのシーケンス長を持つ7Bパラメータの一連のモデルである。
研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。
論文 参考訳(メタデータ) (2023-09-07T02:20:03Z) - CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual
Evaluations on HumanEval-X [45.81982082596839]
コード生成に130億のパラメータを持つ多言語モデルであるCodeGeeXを紹介する。
CodeGeeXは、23のプログラミング言語の8500億のトークンで事前訓練されている。
論文 参考訳(メタデータ) (2023-03-30T17:34:01Z) - Large Language Models Meet NL2Code: A Survey [19.606985859571083]
NL2Code用の27の既存大規模言語モデルに関する包括的調査を行う。
NL2Codeの大規模言語モデルの成功に寄与する主な要因は、"大規模サイズ、プレミアムデータ、エキスパートチューニング"である。
論文 参考訳(メタデータ) (2022-12-19T12:55:32Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。