論文の概要: Execution-Based Evaluation for Open-Domain Code Generation
- arxiv url: http://arxiv.org/abs/2212.10481v1
- Date: Tue, 20 Dec 2022 17:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 14:18:53.519975
- Title: Execution-Based Evaluation for Open-Domain Code Generation
- Title(参考訳): 実行に基づくオープンドメインコード生成の評価
- Authors: Zhiruo Wang, Shuyan Zhou, Daniel Fried, Graham Neubig
- Abstract要約: ODEXは、コード生成データセットに対する最初のオープンドメイン実行ベース自然言語(NL)である。
ODEXには79の多様なライブラリにまたがる945のNL-Codeペアと1,707の人間が書いたテストケースがある。
ODEXは英語、スペイン語、日本語、ロシア語の4つの自然言語をインテントとしてサポートしている。
- 参考スコア(独自算出の注目度): 81.96731162394445
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: To extend the scope of coding queries to more realistic settings, we propose
ODEX, the first open-domain execution-based natural language (NL) to code
generation dataset. ODEX has 945 NL-Code pairs spanning 79 diverse libraries,
along with 1,707 human-written test cases for execution. Our NL-Code pairs are
harvested from StackOverflow forums to encourage natural and practical coding
queries, which are then carefully rephrased to ensure intent clarity and
prevent potential data memorization. Moreover, ODEX supports four natural
languages as intents, in English, Spanish, Japanese, and Russian. ODEX unveils
intriguing behavioral differences between top-performing Code LMs: Codex
performs better on open-domain queries, yet CodeGen captures a better balance
between open- and closed-domain. ODEX corroborates the merits of
execution-based evaluation over metrics without execution but also unveils
their complementary effects. Powerful models such as CodeGen-6B only achieve an
11.96 pass rate at top-1 prediction, suggesting plenty of headroom for
improvement. We release ODEX to facilitate research into open-domain problems
for the code generation community.
- Abstract(参考訳): コーディングクエリの範囲をより現実的な設定に拡張するため、コード生成データセットに対して、最初のオープンドメイン実行ベース自然言語(NL)であるODEXを提案する。
ODEXには79の多様なライブラリにまたがる945のNL-Codeペアと1,707の人間が書いたテストケースがある。
当社のNL-CodeペアはStackOverflowフォーラムから抽出され、自然で実用的なコーディングクエリを奨励します。
さらに、ODEXは英語、スペイン語、日本語、ロシア語の4つの自然言語を意図としてサポートしている。
オープンドメインクエリではcodexの方がパフォーマンスがよいが、codegenではオープンドメインとクローズドドメインのバランスが向上している。
ODEXは、実行せずにメトリクスよりも実行ベースの評価のメリットを裏付けるだけでなく、補完的な効果も明らかにしている。
CodeGen-6Bのような強力なモデルは、トップ1の予測で11.96パス率しか達成していない。
我々は、コード生成コミュニティのオープンドメイン問題の研究を促進するためにODEXをリリースします。
関連論文リスト
- Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - Bridge and Hint: Extending Pre-trained Language Models for Long-Range Code [20.60634057560564]
我々は,lOng-range符号に対する事前学習言語モデルの拡張フレームワークを提案する。
EXPOには、Bridge MemoryとHint Memoryという2つの革新的なメモリメカニズムが組み込まれている。
我々は、UniXcoderのような5つの人気のある事前学習言語モデルにおけるEXPOの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-18T09:06:41Z) - CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation [58.84212778960507]
我々は,LLMの性能を高めるため,グラフィカル検索拡張コード生成フレームワークであるCodeGRAGを提案する。
CodeGRAGは、制御フローとデータフローに基づいて、コードブロックのグラフィカルなビューを構築し、プログラミング言語と自然言語のギャップを埋める。
ハードメタグラフプロンプト、ソフトプロンプト技術、事前訓練されたGNN専門家の目的の有効性を検証するために、C++言語とピソン言語の両方を含む4つのデータセットで様々な実験と改善が行われた。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - DeepSeek-Coder: When the Large Language Model Meets Programming -- The
Rise of Code Intelligence [42.517055368627226]
私たちはDeepSeek-Coderシリーズを紹介します。これは、サイズが1.3Bから33Bまでのオープンソースのコードモデルで、2兆トークンでゼロからトレーニングされています。
評価の結果、DeepSeek-Coderは複数のベンチマークでオープンソースのコードモデル間で最先端のパフォーマンスを実現していることがわかった。
DeepSeek-Coderモデルは、調査と制限なしの商用使用の両方を可能にする寛容なライセンス下にある。
論文 参考訳(メタデータ) (2024-01-25T14:17:53Z) - XGen-7B Technical Report [138.71625147048377]
XGenは、最大1.5Tトークンに対して最大8Kのシーケンス長を持つ7Bパラメータの一連のモデルである。
研究の進歩と商用アプリケーションのためのモデルをオープンソースにしています。
論文 参考訳(メタデータ) (2023-09-07T02:20:03Z) - CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X [50.008474888951525]
コード生成に130億のパラメータを持つ多言語モデルであるCodeGeeXを紹介する。
CodeGeeXは、23のプログラミング言語の8500億のトークンで事前訓練されている。
論文 参考訳(メタデータ) (2023-03-30T17:34:01Z) - Large Language Models Meet NL2Code: A Survey [19.606985859571083]
NL2Code用の27の既存大規模言語モデルに関する包括的調査を行う。
NL2Codeの大規模言語モデルの成功に寄与する主な要因は、"大規模サイズ、プレミアムデータ、エキスパートチューニング"である。
論文 参考訳(メタデータ) (2022-12-19T12:55:32Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。