Fugu-MT 論文翻訳(概要): CoderEval: A Benchmark of Pragmatic Code Generation with Generative Pre-trained Models

論文の概要: CoderEval: A Benchmark of Pragmatic Code Generation with Generative Pre-trained Models

arxiv url: http://arxiv.org/abs/2302.00288v2
Date: Wed, 25 Oct 2023 01:00:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 23:11:20.314862
Title: CoderEval: A Benchmark of Pragmatic Code Generation with Generative Pre-trained Models
Title（参考訳）: CoderEval: 生成事前トレーニングモデルによる実用的コード生成のベンチマーク
Authors: Hao Yu, Bo Shen, Dezhi Ran, Jiaxin Zhang, Qi Zhang, Yuchi Ma, Guangtai Liang, Ying Li, Qianxiang Wang, Tao Xie
Abstract要約: 230のPythonと230のJavaコード生成タスクからなるCoderEvalというベンチマークを提案する。 CoderEval上で3つのコード生成モデルを評価することにより、スタンドアロン関数の生成におけるこれらのモデルの有効性が非スタンドアロン関数の生成よりも著しく高いことが分かる。
参考スコア（独自算出の注目度）: 20.169432642273524
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code generation models based on the pre-training and fine-tuning paradigm have been increasingly attempted by both academia and industry, resulting in well-known industrial models such as Codex, CodeGen, and PanGu-Coder. To evaluate the effectiveness of these models, multiple existing benchmarks are proposed, including only cases of generating a standalone function, i.e., a function that may invoke or access only built-in functions and standard libraries. However, non-standalone functions, which typically are not included in the existing benchmarks, constitute more than 70% of the functions in popular open-source projects, and evaluating models' effectiveness on standalone functions cannot reflect these models' effectiveness on pragmatic code generation scenarios. To help bridge the preceding gap, in this paper, we propose a benchmark named CoderEval, consisting of 230 Python and 230 Java code generation tasks carefully curated from popular real-world open-source projects and a self-contained execution platform to automatically assess the functional correctness of generated code. CoderEval supports code generation tasks from six levels of context dependency, where context refers to code elements such as types, APIs, variables, and consts defined outside the function under generation but within the dependent third-party libraries, current class, file, or project. CoderEval can be used to evaluate the effectiveness of models in generating code beyond only standalone functions. By evaluating three code generation models on CoderEval, we find that the effectiveness of these models in generating standalone functions is substantially higher than that in generating non-standalone functions. Our analysis highlights the current progress and pinpoints future directions to further improve a model's effectiveness by leveraging contextual information for pragmatic code generation.
Abstract（参考訳）: 事前学習と微調整のパラダイムに基づくコード生成モデルは、学界と産業の両方でますます試みられ、結果としてCodex、CodeGen、PanGu-Coderといった有名な産業モデルが生まれた。これらのモデルの有効性を評価するために、スタンドアロン関数を生成する場合、すなわち組み込み関数と標準ライブラリのみを起動またはアクセスする関数を含む、複数の既存のベンチマークが提案されている。しかしながら、既存のベンチマークには含まれない非スタンドアロン関数は、人気のあるオープンソースプロジェクトにおける機能の70%以上を占め、スタンドアロン関数におけるモデルの有効性を評価することは、実用的なコード生成シナリオにおけるモデルの有効性を反映できない。本稿では,このギャップを埋めるために,人気のある実世界のオープンソースプロジェクトから注意深く収集した230 pythonと230 javaコード生成タスクと,生成コードの機能的正当性を自動的に評価する自己完結型実行プラットフォームからなる,coderevalというベンチマークを提案する。 CoderEvalは、コンテキスト依存の6つのレベルからコード生成タスクをサポートする。コンテキストは、生成中の関数の外で定義された型、API、変数、constなど、依存するサードパーティライブラリ、現在のクラス、ファイル、プロジェクトなどのコード要素を指す。 CoderEvalは、スタンドアロン関数以外のコードを生成する際のモデルの有効性を評価するために使用できる。 CoderEval上で3つのコード生成モデルを評価することにより、スタンドアロン関数の生成におけるこれらのモデルの有効性が非スタンドアロン関数の生成よりも著しく高いことが分かる。本分析は,現実的なコード生成に文脈情報を活用することにより,モデルの有効性をさらに向上させるための今後の方向性を明らかにする。

関連論文リスト

OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique [59.18475981916166]
OpenCodeReasoning-IIは、250万の質問解決批判三部作からなるデータセットである(約35万のユニークなプログラミング質問)。本研究では,2段階の教師付き微調整戦略を採用する。第1段階はコード生成のための微調整に焦点を当て,第2段階はコード生成と批判の両方のためのモデルの共同トレーニングを行う。特に,コード生成と批判モデルの統合は,競争力のある符号化性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-07-11T23:35:54Z)
An Empirical Study of Retrieval-Augmented Code Generation: Challenges and Opportunities [19.455889970335967]
コード生成は、自然言語の記述に従って、特定のプログラミング言語のコードスニペットを自動的に生成することを目的としている。コード生成のための事前訓練されたモデルの1つの大きな課題は、自然言語要求とソースコードのセマンティックギャップである。 Retrieval-augmented frameworkは、要求を理解し、生成プロセスのガイダンスを提供するために利用することができる。
論文参考訳（メタデータ） (2025-01-23T15:17:51Z)
See-Saw Generative Mechanism for Scalable Recursive Code Generation with Generative AI [0.0]
本稿では,動的かつ反復的なコード生成手法であるSee-Saw生成機構を紹介する。提案されたアプローチは、アライメントと機能を保証するために、メインコード更新と依存性生成を交互に行う。このメカニズムにより、すべてのコードコンポーネントが同期化され、機能し、スケーラブルで効率的なプロジェクト生成を可能にする。
論文参考訳（メタデータ） (2024-11-16T18:54:56Z)
CodeDPO: Aligning Code Models with Self Generated and Verified Source Code [52.70310361822519]
我々は、コード生成に好み学習を統合するフレームワークであるCodeDPOを提案し、コードの正確性と効率性という2つの重要なコード優先要因を改善した。 CodeDPOは、コードとテストケースを同時に生成、評価するセルフジェネレーション・アンド・バリデーションメカニズムを利用して、新しいデータセット構築方法を採用している。
論文参考訳（メタデータ） (2024-10-08T01:36:15Z)
RepoMasterEval: Evaluating Code Completion via Real-World Repositories [12.176098357240095]
RepoMasterEvalは、現実のPythonとTypeScriptリポジトリから構築されたコード補完モデルを評価するための新しいベンチマークである。モデル生成コードのテスト精度を向上させるため,テストケースの有効性を測定するために突然変異試験を用いる。 6つの最先端モデルに対する実証的な評価は、テスト議論がベンチマークの精度向上に重要であることを示している。
論文参考訳（メタデータ） (2024-08-07T03:06:57Z)
On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
リポジトリレベルのコード生成を評価するために設計された新しいベンチマークである textbfmethodnamews を提案する。実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文参考訳（メタデータ） (2024-06-17T10:45:22Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-05T19:23:34Z)
Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文参考訳（メタデータ） (2023-05-08T10:00:05Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。 PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。 PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文参考訳（メタデータ） (2023-01-31T18:02:26Z)
ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文参考訳（メタデータ） (2022-12-20T14:11:31Z)
Incorporating Domain Knowledge through Task Augmentation for Front-End JavaScript Code Generation [10.75138604869187]
ドメイン固有のシナリオでは、直接利用可能なペアデータがないため、コード生成のためにこのような大きなペアコーパスを構築するのは難しい。本稿では,補助タスクとSubtoken-TranXモデルを用いて,ドメイン知識をコード生成モデルに組み込むタスク拡張手法を提案する。実験の結果,サブトークンレベルのTranXモデルは,データセット上でのTranXモデルとTransformerモデルよりも優れていた。
論文参考訳（メタデータ） (2022-08-22T06:57:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。