論文の概要: CCTEST: Testing and Repairing Code Completion Systems
- arxiv url: http://arxiv.org/abs/2208.08289v3
- Date: Mon, 8 May 2023 13:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 15:05:15.822534
- Title: CCTEST: Testing and Repairing Code Completion Systems
- Title(参考訳): CCTEST: コード補完システムのテストと修復
- Authors: Zongjie Li, Chaozheng Wang, Zhibo Liu, Haoxuan Wang, Dong Chen, Shuai
Wang, Cuiyun Gao
- Abstract要約: 本研究は,ブラックボックス設定でコード補完システムをテストし,修復するフレームワークであるCCTESTを提案する。
修復により,BLEUスコアとLevenshtein編集の類似性に関して,コード補完システムの精度が40%から67%向上していることが明らかとなった。
- 参考スコア(独自算出の注目度): 27.176179982086804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code completion, a highly valuable topic in the software development domain,
has been increasingly promoted for use by recent advances in large language
models (LLMs). To date, visible LLM-based code completion frameworks such as
GitHub Copilot and GPT are trained using deep learning over vast quantities of
unstructured text and open source code. As the paramount component and the
cornerstone in daily programming tasks, code completion has largely boosted
professionals' efficiency in building real-world software systems. In contrast
to this flourishing market, we find that code completion systems often output
suspicious results, and to date, an automated testing and enhancement framework
for code completion systems is not available. This research proposes CCTEST, a
framework to test and repair code completion systems in blackbox settings.
CCTEST features a set of novel mutation strategies, namely program
structure-correlated (PSC) mutations, to generate mutated code completion
inputs. Then, it detects inconsistent outputs, representing possibly erroneous
cases, from all the completed code cases. Moreover, CCTEST repairs the code
completion outputs by selecting the output that mostly reflects the "average"
appearance of all output cases, as the final output of the code completion
systems. We detected a total of 33,540 inputs (with a true positive rate of
86%) that can trigger erroneous cases from eight popular LLM-based code
completion systems. With repairing, we show that the accuracy of code
completion systems is notably increased by 40% and 67% with respect to BLEU
score and Levenshtein edit similarity.
- Abstract(参考訳): ソフトウェア開発領域で非常に価値のあるトピックであるコード補完は、近年の大規模言語モデル(llm)の進歩によって、ますます普及している。
現在まで、GitHub CopilotやGPTといったLLMベースのコード補完フレームワークは、大量の構造化されていないテキストとオープンソースのコードでディープラーニングを使用して訓練されている。
毎日のプログラミングタスクの要となるコンポーネントと基礎として、コード補完は、実世界のソフトウェアシステム構築におけるプロフェッショナルの効率を大きく向上させた。
この繁栄する市場とは対照的に、コード補完システムは不審な結果を出力することが多く、これまでコード補完システムのための自動テストおよび拡張フレームワークは使用できなかった。
本研究は,ブラックボックス設定でコード補完システムをテストし,修復するフレームワークであるCCTESTを提案する。
CCTESTは、プログラム構造関連突然変異(PSC)と呼ばれる一連の新しい突然変異戦略を備え、変異コード補完入力を生成する。
そして、完了したすべてのコードケースから、おそらく誤ったケースを表す一貫性のない出力を検出する。
さらにcctestは、コード補完システムの最終的な出力として、すべての出力ケースの"平均"外観を主に反映する出力を選択することで、コード補完出力を修復する。
我々は8つのLLMベースのコード補完システムから誤ったケースを発生させることができる33,540個の入力(正の86%)を検出した。
修復により,BLEUスコアとLevenshteinの類似性について,コード補完システムの精度が40%から67%向上していることが明らかとなった。
関連論文リスト
- Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Validating LLM-Generated Programs with Metamorphic Prompt Testing [8.785973653167112]
大規模言語モデル(LLM)は、ソフトウェア開発ライフサイクルにますます統合されています。
本稿では,これらの課題に対処するため,メタモルフィック・プロンプト・テストと呼ばれる新しい手法を提案する。
我々のHumanEvalに対する評価は,GPT-4が生成する誤プログラムの75%を,偽陽性率8.6%で検出できることを示す。
論文 参考訳(メタデータ) (2024-06-11T00:40:17Z) - Prompt-based Code Completion via Multi-Retrieval Augmented Generation [15.233727939816388]
ProCCは、プロンプトエンジニアリングとコンテキスト多武装バンディットアルゴリズムを活用したコード補完フレームワークである。
ProCCは、収集したオープンソースベンチマークスイートにおいて、最先端のコード補完テクニックを8.6%上回ります。
ProCCはまた, プラグ・アンド・プレイ方式で微調整技術を増強し, 実験した微調整モデルよりも5.6%改善した。
論文 参考訳(メタデータ) (2024-05-13T07:56:15Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - CodePori: Large-Scale System for Autonomous Software Development Using Multi-Agent Technology [4.2990995991059275]
大規模言語モデル(LLM)とGPT(Generative Pre-trained Transformer)は、ソフトウェア工学の分野を変えました。
我々は,大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化するように設計された,新しいシステムであるCodePoriを紹介する。
結果: CodePoriは、典型的なソフトウェア開発プロセスに合わせて、大規模プロジェクトの実行コードを生成することができる。
論文 参考訳(メタデータ) (2024-02-02T13:42:50Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - IRCoCo: Immediate Rewards-Guided Deep Reinforcement Learning for Code
Completion [38.863871578280936]
コード補完固有のDRLに基づく微調整フレームワークIRCoCoを提案する。
我々は、IRCoCoを用いた微調整済みLMが、コード補完タスクの大幅な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2024-01-30T00:18:20Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Don't Complete It! Preventing Unhelpful Code Completion for Productive and Sustainable Neural Code Completion Systems [16.03416381009787]
現在、大きな事前訓練された言語モデルは、ニューラルコード補完システムに広く適用されている。
Github Copilotの表示されたコード補完の約70%は、開発者に受け入れられていない。
本稿では,コード補完性能を予見することで,低リターンプロンプトを停止させる早期リジェクション機構を提案する。
論文 参考訳(メタデータ) (2022-09-13T12:43:41Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。