Fugu-MT 論文翻訳(概要): ReCode: Robustness Evaluation of Code Generation Models

論文の概要: ReCode: Robustness Evaluation of Code Generation Models

arxiv url: http://arxiv.org/abs/2212.10264v1
Date: Tue, 20 Dec 2022 14:11:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-21 14:37:13.630378
Title: ReCode: Robustness Evaluation of Code Generation Models
Title（参考訳）: ReCode: コード生成モデルのロバスト性評価
Authors: Shiqi Wang, Zheng Li, Haifeng Qian, Chenghao Yang, Zijian Wang, Mingyue Shang, Varun Kumar, Samson Tan, Baishakhi Ray, Parminder Bhatia, Ramesh Nallapati, Murali Krishna Ramanathan, Dan Roth, Bing Xiang
Abstract要約: コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
参考スコア（独自算出の注目度）: 90.10436771217243
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Code generation models have achieved impressive performance. However, they tend to be brittle as slight edits to a prompt could lead to very different generations; these robustness properties, critical for user experience when deployed in real-life applications, are not well understood. Most existing works on robustness in text or code tasks have focused on classification, while robustness in generation tasks is an uncharted area and to date there is no comprehensive benchmark for robustness in code generation. In this paper, we propose ReCode, a comprehensive robustness evaluation benchmark for code generation models. We customize over 30 transformations specifically for code on docstrings, function and variable names, code syntax, and code format. They are carefully designed to be natural in real-life coding practice, preserve the original semantic meaning, and thus provide multifaceted assessments of a model's robustness performance. With human annotators, we verified that over 90% of the perturbed prompts do not alter the semantic meaning of the original prompt. In addition, we define robustness metrics for code generation models considering the worst-case behavior under each type of perturbation, taking advantage of the fact that executing the generated code can serve as objective evaluation. We demonstrate ReCode on SOTA models using HumanEval, MBPP, as well as function completion tasks derived from them. Interesting observations include: better robustness for CodeGen over InCoder and GPT-J; models are most sensitive to syntax perturbations; more challenging robustness evaluation on MBPP over HumanEval.
Abstract（参考訳）: コード生成モデルは素晴らしいパフォーマンスを達成した。しかし、プロンプトへのわずかな編集は、非常に異なる世代に繋がる可能性があるため、不安定になる傾向がある。テキストやコードタスクの堅牢性に関する既存の作業は、分類に重点を置いているが、生成タスクの堅牢性は、チャートされていない領域であり、コード生成の堅牢性に関する包括的なベンチマークはない。本稿では,コード生成モデルのための総合的ロバストネス評価ベンチマークReCodeを提案する。ドクストリング、関数と変数名、コード構文、コードフォーマットのコード用に、30以上の変換をカスタマイズします。それらは、実生活のコーディングの実践において自然であるように慎重に設計され、元の意味的意味を保ち、モデルのロバスト性性能の多面的評価を提供する。ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。さらに,コード生成モデルのロバスト性指標を,生成コードの実行が客観的な評価に有効であるという事実を生かして,摂動のタイプ毎に最悪の動作を考慮に入れて定義する。我々は,HumanEval,MBPPを用いたSOTAモデル上でのReCodeと,それらから派生した関数補完タスクを実証する。 InCoderやGPT-JよりもCodeGenの方が堅牢である;モデルは構文の摂動に最も敏感である;HumanEvalよりもMBPPの方が頑丈である。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Leveraging Reward Models for Guiding Code Review Comment Generation [13.306560805316103]
コードレビューは、コード品質の評価、潜在的な問題に対するフィードバックの提供、特定された問題に対処するためのコード修正を含む、現代のソフトウェア開発において重要なコンポーネントである。ディープラーニングのテクニックは、人間のレビュアーが行うようなコードにコメントすることで、コードレビューのジェネレーティブな側面に取り組むことができる。本稿では,報酬機構を備えた強化学習を活用することによって,レビューコメント生成を自動化するディープラーニングフレームワークであるCoRALを紹介する。
論文参考訳（メタデータ） (2025-06-04T21:31:38Z)
Selective Code Generation for Functional Guarantees [13.0038589319782]
大規模言語モデル(LLM)は、人間レベルのパフォーマンスを示し、その特別な子孫、コード生成モデルが複雑なタスクを解決する上でコアとなる役割を担っている。コード生成モデルの幻覚はめったに考慮されない。
論文参考訳（メタデータ） (2025-05-19T06:29:16Z)
Large Language Models are Qualified Benchmark Builders: Rebuilding Pre-Training Datasets for Advancing Code Intelligence Tasks [18.4734091090676]
人書きによるコメントを大きな言語モデルに置き換えることで、事前学習データセットが改善されるかどうかを検討する。結果から, LLM 生成したコメントは, 人間が書いたコメントよりも, コードと意味的に一致していることがわかった。
論文参考訳（メタデータ） (2025-04-28T03:16:34Z)
Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文参考訳（メタデータ） (2025-04-12T15:03:00Z)
CodeReviewQA: The Code Review Comprehension Assessment for Large Language Models [10.108114365564926]
最先端の大規模言語モデル(LLM)は、印象的なコード生成機能を示しているが、実際のソフトウェアエンジニアリングタスクに苦労している。コードレビューのコメントは暗黙的であり、曖昧で、口語であり、モデルがコードと人間の意図の両方を理解する必要がある。この課題は、大きな言語モデルが技術的コンテキストと会話的コンテキストの両方を橋渡しする能力を評価することである。
論文参考訳（メタデータ） (2025-03-20T14:07:31Z)
Robust Learning of Diverse Code Edits [10.565439872488328]
ソフトウェアエンジニアリングのアクティビティは、しばしば既存のコードへの編集を伴います。コード言語モデル(LM)には、さまざまなタイプのコード編集要求を処理する能力がない。
論文参考訳（メタデータ） (2025-03-05T16:39:04Z)
GitChameleon: Unmasking the Version-Switching Capabilities of Code Generation Models [16.6780665807022]
textbfGitChameleonは、116のPythonコード補完問題からなる、手動でキュレートされた新しいデータセットである。 GitChameleonは、バージョン固有のコードを生成するためのモダンな大規模言語モデルの性能を厳格に評価するように設計されている。
論文参考訳（メタデータ） (2024-11-05T23:34:06Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文参考訳（メタデータ） (2024-04-11T08:30:46Z)
JumpCoder: Go Beyond Autoregressive Coder via Online Modification [18.9350072969148]
JumpCoderは、人間に似たオンライン修正と非逐次生成が可能な新しいモデルに依存しないフレームワークで、LLMを増強する。 JumpCoderの背景にある重要なアイデアは、生成時に必要に応じて、現在生成されたコードに新しいコードを挿入することである。
論文参考訳（メタデータ） (2024-01-15T18:04:29Z)
Stochastic Code Generation [1.7205106391379026]
コード生成のために事前訓練された大きな言語モデルは、高品質のショートコードを生成するが、コヒーレントな長いコードを生成するのにしばしば苦労する。この問題は、長文生成のための言語モデリングにも見られる。本研究では,この手法をコード生成に適用してコヒーレンスを向上できるかを検討する。
論文参考訳（メタデータ） (2023-04-14T00:01:05Z)
CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文参考訳（メタデータ） (2022-11-25T18:05:44Z)
InCoder: A Generative Model for Code Infilling and Synthesis [88.46061996766348]
InCoderは、プログラム合成(左から右への生成)と編集(埋め込み)が可能な統合生成モデルである。 InCoderは、許可されたコードの大きなコーパスからコードファイルを生成するように訓練されている。私たちのモデルは、ゼロショットコードの埋め込みを直接実行できる最初の生成モデルです。
論文参考訳（メタデータ） (2022-04-12T16:25:26Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。