論文の概要: ReCode: Robustness Evaluation of Code Generation Models
- arxiv url: http://arxiv.org/abs/2212.10264v1
- Date: Tue, 20 Dec 2022 14:11:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 14:37:13.630378
- Title: ReCode: Robustness Evaluation of Code Generation Models
- Title(参考訳): ReCode: コード生成モデルのロバスト性評価
- Authors: Shiqi Wang, Zheng Li, Haifeng Qian, Chenghao Yang, Zijian Wang,
Mingyue Shang, Varun Kumar, Samson Tan, Baishakhi Ray, Parminder Bhatia,
Ramesh Nallapati, Murali Krishna Ramanathan, Dan Roth, Bing Xiang
- Abstract要約: コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
- 参考スコア(独自算出の注目度): 90.10436771217243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code generation models have achieved impressive performance. However, they
tend to be brittle as slight edits to a prompt could lead to very different
generations; these robustness properties, critical for user experience when
deployed in real-life applications, are not well understood. Most existing
works on robustness in text or code tasks have focused on classification, while
robustness in generation tasks is an uncharted area and to date there is no
comprehensive benchmark for robustness in code generation. In this paper, we
propose ReCode, a comprehensive robustness evaluation benchmark for code
generation models. We customize over 30 transformations specifically for code
on docstrings, function and variable names, code syntax, and code format. They
are carefully designed to be natural in real-life coding practice, preserve the
original semantic meaning, and thus provide multifaceted assessments of a
model's robustness performance. With human annotators, we verified that over
90% of the perturbed prompts do not alter the semantic meaning of the original
prompt. In addition, we define robustness metrics for code generation models
considering the worst-case behavior under each type of perturbation, taking
advantage of the fact that executing the generated code can serve as objective
evaluation. We demonstrate ReCode on SOTA models using HumanEval, MBPP, as well
as function completion tasks derived from them. Interesting observations
include: better robustness for CodeGen over InCoder and GPT-J; models are most
sensitive to syntax perturbations; more challenging robustness evaluation on
MBPP over HumanEval.
- Abstract(参考訳): コード生成モデルは素晴らしいパフォーマンスを達成した。
しかし、プロンプトへのわずかな編集は、非常に異なる世代に繋がる可能性があるため、不安定になる傾向がある。
テキストやコードタスクの堅牢性に関する既存の作業は、分類に重点を置いているが、生成タスクの堅牢性は、チャートされていない領域であり、コード生成の堅牢性に関する包括的なベンチマークはない。
本稿では,コード生成モデルのための総合的ロバストネス評価ベンチマークReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコード用に、30以上の変換をカスタマイズします。
それらは、実生活のコーディングの実践において自然であるように慎重に設計され、元の意味的意味を保ち、モデルのロバスト性性能の多面的評価を提供する。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
さらに,コード生成モデルのロバスト性指標を,生成コードの実行が客観的な評価に有効であるという事実を生かして,摂動のタイプ毎に最悪の動作を考慮に入れて定義する。
我々は,HumanEval,MBPPを用いたSOTAモデル上でのReCodeと,それらから派生した関数補完タスクを実証する。
InCoderやGPT-JよりもCodeGenの方が堅牢である;モデルは構文の摂動に最も敏感である;HumanEvalよりもMBPPの方が頑丈である。
関連論文リスト
- GitChameleon: Unmasking the Version-Switching Capabilities of Code Generation Models [16.6780665807022]
textbfGitChameleonは、116のPythonコード補完問題からなる、手動でキュレートされた新しいデータセットである。
GitChameleonは、バージョン固有のコードを生成するためのモダンな大規模言語モデルの性能を厳格に評価するように設計されている。
論文 参考訳(メタデータ) (2024-11-05T23:34:06Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。
その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。
論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文 参考訳(メタデータ) (2024-04-11T08:30:46Z) - JumpCoder: Go Beyond Autoregressive Coder via Online Modification [18.9350072969148]
JumpCoderは、人間に似たオンライン修正と非逐次生成が可能な新しいモデルに依存しないフレームワークで、LLMを増強する。
JumpCoderの背景にある重要なアイデアは、生成時に必要に応じて、現在生成されたコードに新しいコードを挿入することである。
論文 参考訳(メタデータ) (2024-01-15T18:04:29Z) - Stochastic Code Generation [1.7205106391379026]
コード生成のために事前訓練された大きな言語モデルは、高品質のショートコードを生成するが、コヒーレントな長いコードを生成するのにしばしば苦労する。
この問題は、長文生成のための言語モデリングにも見られる。
本研究では,この手法をコード生成に適用してコヒーレンスを向上できるかを検討する。
論文 参考訳(メタデータ) (2023-04-14T00:01:05Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - InCoder: A Generative Model for Code Infilling and Synthesis [88.46061996766348]
InCoderは、プログラム合成(左から右への生成)と編集(埋め込み)が可能な統合生成モデルである。
InCoderは、許可されたコードの大きなコーパスからコードファイルを生成するように訓練されている。
私たちのモデルは、ゼロショットコードの埋め込みを直接実行できる最初の生成モデルです。
論文 参考訳(メタデータ) (2022-04-12T16:25:26Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。