論文の概要: Execution-Based Evaluation for Open-Domain Code Generation
- arxiv url: http://arxiv.org/abs/2212.10481v1
- Date: Tue, 20 Dec 2022 17:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 14:18:53.519975
- Title: Execution-Based Evaluation for Open-Domain Code Generation
- Title(参考訳): 実行に基づくオープンドメインコード生成の評価
- Authors: Zhiruo Wang, Shuyan Zhou, Daniel Fried, Graham Neubig
- Abstract要約: ODEXは、コード生成データセットに対する最初のオープンドメイン実行ベース自然言語(NL)である。
ODEXには79の多様なライブラリにまたがる945のNL-Codeペアと1,707の人間が書いたテストケースがある。
ODEXは英語、スペイン語、日本語、ロシア語の4つの自然言語をインテントとしてサポートしている。
- 参考スコア(独自算出の注目度): 81.96731162394445
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: To extend the scope of coding queries to more realistic settings, we propose
ODEX, the first open-domain execution-based natural language (NL) to code
generation dataset. ODEX has 945 NL-Code pairs spanning 79 diverse libraries,
along with 1,707 human-written test cases for execution. Our NL-Code pairs are
harvested from StackOverflow forums to encourage natural and practical coding
queries, which are then carefully rephrased to ensure intent clarity and
prevent potential data memorization. Moreover, ODEX supports four natural
languages as intents, in English, Spanish, Japanese, and Russian. ODEX unveils
intriguing behavioral differences between top-performing Code LMs: Codex
performs better on open-domain queries, yet CodeGen captures a better balance
between open- and closed-domain. ODEX corroborates the merits of
execution-based evaluation over metrics without execution but also unveils
their complementary effects. Powerful models such as CodeGen-6B only achieve an
11.96 pass rate at top-1 prediction, suggesting plenty of headroom for
improvement. We release ODEX to facilitate research into open-domain problems
for the code generation community.
- Abstract(参考訳): コーディングクエリの範囲をより現実的な設定に拡張するため、コード生成データセットに対して、最初のオープンドメイン実行ベース自然言語(NL)であるODEXを提案する。
ODEXには79の多様なライブラリにまたがる945のNL-Codeペアと1,707の人間が書いたテストケースがある。
当社のNL-CodeペアはStackOverflowフォーラムから抽出され、自然で実用的なコーディングクエリを奨励します。
さらに、ODEXは英語、スペイン語、日本語、ロシア語の4つの自然言語を意図としてサポートしている。
オープンドメインクエリではcodexの方がパフォーマンスがよいが、codegenではオープンドメインとクローズドドメインのバランスが向上している。
ODEXは、実行せずにメトリクスよりも実行ベースの評価のメリットを裏付けるだけでなく、補完的な効果も明らかにしている。
CodeGen-6Bのような強力なモデルは、トップ1の予測で11.96パス率しか達成していない。
我々は、コード生成コミュニティのオープンドメイン問題の研究を促進するためにODEXをリリースします。
関連論文リスト
- DeepSeek-Coder: When the Large Language Model Meets Programming -- The
Rise of Code Intelligence [42.517055368627226]
私たちはDeepSeek-Coderシリーズを紹介します。これは、サイズが1.3Bから33Bまでのオープンソースのコードモデルで、2兆トークンでゼロからトレーニングされています。
評価の結果、DeepSeek-Coderは複数のベンチマークでオープンソースのコードモデル間で最先端のパフォーマンスを実現していることがわかった。
DeepSeek-Coderモデルは、調査と制限なしの商用使用の両方を可能にする寛容なライセンス下にある。
論文 参考訳(メタデータ) (2024-01-25T14:17:53Z) - XGen-7B Technical Report [138.71625147048377]
XGenは、最大1.5Tトークンに対して最大8Kのシーケンス長を持つ7Bパラメータの一連のモデルである。
研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。
論文 参考訳(メタデータ) (2023-09-07T02:20:03Z) - CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual
Evaluations on HumanEval-X [45.81982082596839]
コード生成に130億のパラメータを持つ多言語モデルであるCodeGeeXを紹介する。
CodeGeeXは、23のプログラミング言語の8500億のトークンで事前訓練されている。
論文 参考訳(メタデータ) (2023-03-30T17:34:01Z) - Large Language Models Meet NL2Code: A Survey [19.606985859571083]
NL2Code用の27の既存大規模言語モデルに関する包括的調査を行う。
NL2Codeの大規模言語モデルの成功に寄与する主な要因は、"大規模サイズ、プレミアムデータ、エキスパートチューニング"である。
論文 参考訳(メタデータ) (2022-12-19T12:55:32Z) - Multi-lingual Evaluation of Code Generation Models [82.7357812992118]
本稿では,MBXPとMultilingual HumanEval,MathQA-Xという,評価コード生成モデルに関する新しいベンチマークを提案する。
これらのデータセットは10以上のプログラミング言語をカバーする。
コード生成モデルの性能を多言語で評価することができる。
論文 参考訳(メタデータ) (2022-10-26T17:17:06Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。