論文の概要: COCO: Testing Code Generation Systems via Concretized Instructions
- arxiv url: http://arxiv.org/abs/2308.13319v1
- Date: Fri, 25 Aug 2023 11:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 12:36:29.040776
- Title: COCO: Testing Code Generation Systems via Concretized Instructions
- Title(参考訳): COCO: 拡張命令によるコード生成システムのテスト
- Authors: Ming Yan, Junjie Chen, Jie M. Zhang, Xuejie Cao, Chen Yang, Mark
Harman
- Abstract要約: COCOは、コード生成システムの堅牢性をテストする技術である。
これは、コード生成システムの使用シナリオを利用して、元のプログラミング命令をより具体的にする。
我々はCOCOをCopilotやChatGPTといった商用ツールを含む8つの先進的なコード生成システムで評価した。
- 参考スコア(独自算出の注目度): 33.13427092832396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code generation systems have been extensively developed in recent years to
generate source code based on natural language instructions. However, despite
their advancements, these systems still face robustness issues where even
slightly different instructions can result in significantly different code
semantics. Robustness is critical for code generation systems, as it can have
significant impacts on software development, software quality, and trust in the
generated code. Although existing testing techniques for general text-to-text
software can detect some robustness issues, they are limited in effectiveness
due to ignoring the characteristics of code generation systems. In this work,
we propose a novel technique COCO to test the robustness of code generation
systems. It exploits the usage scenario of code generation systems to make the
original programming instruction more concrete by incorporating features known
to be contained in the original code. A robust system should maintain code
semantics for the concretized instruction, and COCO detects robustness
inconsistencies when it does not. We evaluated COCO on eight advanced code
generation systems, including commercial tools such as Copilot and ChatGPT,
using two widely-used datasets. Our results demonstrate the effectiveness of
COCO in testing the robustness of code generation systems, outperforming two
techniques adopted from general text-to-text software testing by 466.66% and
104.02%, respectively. Furthermore, concretized instructions generated by COCO
can help reduce robustness inconsistencies by 18.35% to 53.91% through
fine-tuning.
- Abstract(参考訳): 近年,自然言語命令に基づくソースコードを生成するために,コード生成システムが広く開発されている。
しかし、その進歩にもかかわらず、これらのシステムは、わずかに異なる命令であってもかなり異なるコードセマンティクスをもたらす可能性がある堅牢性の問題に直面している。
コード生成システムではロバスト性が重要であり、ソフトウェア開発、ソフトウェア品質、生成コードに対する信頼に大きな影響を与える可能性がある。
一般的なテキスト・テキスト・ソフトウェアの既存のテスト技術は、いくつかの堅牢性問題を検出することができるが、コード生成システムの特徴を無視して有効性に制限されている。
本研究では,コード生成システムのロバスト性をテストするための新しいCOCO手法を提案する。
コード生成システムの使用シナリオを利用して、元のコードに含まれると思われる機能を組み込むことで、元のプログラミング命令をより具体的にする。
堅牢なシステムは、concretized命令のためのコードセマンティクスを維持すべきであり、cocoは、そうでない場合のロバスト性不整合を検出する。
我々はCOCOをCopilotやChatGPTなどの商用ツールを含む8つの高度なコード生成システム上で2つの広く利用されているデータセットを用いて評価した。
その結果,コード生成システムのロバスト性テストにおけるCOCOの有効性が示され,一般的なテキスト・テキスト・ソフトウェア・テストでは,それぞれ466.66%,104.02%の2つの手法に優れていた。
さらに、COCOによって生成される減量命令は、微調整によって堅牢性の不整合を18.35%から53.91%減少させるのに役立つ。
関連論文リスト
- Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - SWT-Bench: Testing and Validating Real-World Bug-Fixes with Code Agents [10.730852617039451]
ユーザ問題をテストケースに形式化するLLMベースのコードエージェントについて検討する。
我々は人気のあるGitHubリポジトリに基づいた新しいベンチマークを提案し、現実世界の問題、地味なバグフィックス、ゴールデンテストを含む。
コード修復用に設計されたコードエージェントは,テスト生成用に設計されたシステムの性能を上回っている。
論文 参考訳(メタデータ) (2024-06-18T14:54:37Z) - CoCoST: Automatic Complex Code Generation with Online Searching and Correctness Testing [51.00909683314142]
大規模言語モデルは、自然言語記述を実行可能なコードに変換することによって、コード生成能力に革命をもたらした。
CoCoSTフレームワークは、オンライン検索によって複雑なコード生成を強化する。
CoCoSTはDS-1000とClassEvalデータセットの厳密な実験によって検証される。
論文 参考訳(メタデータ) (2024-03-20T13:33:55Z) - Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers [14.018844722021896]
機械および人為的なコードの特徴を特徴付ける特定のパターンについて検討する。
本研究では,機械生成コード検出のための新しい手法であるTectCodeGPTを提案する。
論文 参考訳(メタデータ) (2024-01-12T09:15:20Z) - No Need to Lift a Finger Anymore? Assessing the Quality of Code Generation by ChatGPT [28.68768157452352]
本稿では,ChatGPTを用いたコード生成の質について検討する。
私たちは5つの言語(C、C++、Java、Python、JavaScript)で728のアルゴリズム問題と、コード生成タスクの54のコードシナリオを持つ18のCWEを活用しています。
この結果から,ChatGPTベースのコード生成に生じる潜在的な問題や限界が明らかになった。
論文 参考訳(メタデータ) (2023-08-09T10:01:09Z) - Execution-based Code Generation using Deep Reinforcement Learning [8.085533911328577]
PPOCoderは、事前訓練されたPLモデルとプロキシポリシー最適化を組み合わせた、コード生成のための新しいフレームワークである。
PPOCoderは、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。
PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。
論文 参考訳(メタデータ) (2023-01-31T18:02:26Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Compilable Neural Code Generation with Compiler Feedback [43.97362484564799]
本稿では、言語モデルの微調整、コンパイル可能性強化、コンパイル可能性判定を含む、コンパイル可能なコード生成のための3段階パイプラインを提案する。
2つのコード生成タスクの実験は,提案手法の有効性を示し,平均44.18から89.18に,テキスト・コード生成では70.3から96.2に向上した。
論文 参考訳(メタデータ) (2022-03-10T03:15:17Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。