論文の概要: CCTEST: Testing and Repairing Code Completion Systems
- arxiv url: http://arxiv.org/abs/2208.08289v3
- Date: Mon, 8 May 2023 13:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 15:05:15.822534
- Title: CCTEST: Testing and Repairing Code Completion Systems
- Title(参考訳): CCTEST: コード補完システムのテストと修復
- Authors: Zongjie Li, Chaozheng Wang, Zhibo Liu, Haoxuan Wang, Dong Chen, Shuai
Wang, Cuiyun Gao
- Abstract要約: 本研究は,ブラックボックス設定でコード補完システムをテストし,修復するフレームワークであるCCTESTを提案する。
修復により,BLEUスコアとLevenshtein編集の類似性に関して,コード補完システムの精度が40%から67%向上していることが明らかとなった。
- 参考スコア(独自算出の注目度): 27.176179982086804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code completion, a highly valuable topic in the software development domain,
has been increasingly promoted for use by recent advances in large language
models (LLMs). To date, visible LLM-based code completion frameworks such as
GitHub Copilot and GPT are trained using deep learning over vast quantities of
unstructured text and open source code. As the paramount component and the
cornerstone in daily programming tasks, code completion has largely boosted
professionals' efficiency in building real-world software systems. In contrast
to this flourishing market, we find that code completion systems often output
suspicious results, and to date, an automated testing and enhancement framework
for code completion systems is not available. This research proposes CCTEST, a
framework to test and repair code completion systems in blackbox settings.
CCTEST features a set of novel mutation strategies, namely program
structure-correlated (PSC) mutations, to generate mutated code completion
inputs. Then, it detects inconsistent outputs, representing possibly erroneous
cases, from all the completed code cases. Moreover, CCTEST repairs the code
completion outputs by selecting the output that mostly reflects the "average"
appearance of all output cases, as the final output of the code completion
systems. We detected a total of 33,540 inputs (with a true positive rate of
86%) that can trigger erroneous cases from eight popular LLM-based code
completion systems. With repairing, we show that the accuracy of code
completion systems is notably increased by 40% and 67% with respect to BLEU
score and Levenshtein edit similarity.
- Abstract(参考訳): ソフトウェア開発領域で非常に価値のあるトピックであるコード補完は、近年の大規模言語モデル(llm)の進歩によって、ますます普及している。
現在まで、GitHub CopilotやGPTといったLLMベースのコード補完フレームワークは、大量の構造化されていないテキストとオープンソースのコードでディープラーニングを使用して訓練されている。
毎日のプログラミングタスクの要となるコンポーネントと基礎として、コード補完は、実世界のソフトウェアシステム構築におけるプロフェッショナルの効率を大きく向上させた。
この繁栄する市場とは対照的に、コード補完システムは不審な結果を出力することが多く、これまでコード補完システムのための自動テストおよび拡張フレームワークは使用できなかった。
本研究は,ブラックボックス設定でコード補完システムをテストし,修復するフレームワークであるCCTESTを提案する。
CCTESTは、プログラム構造関連突然変異(PSC)と呼ばれる一連の新しい突然変異戦略を備え、変異コード補完入力を生成する。
そして、完了したすべてのコードケースから、おそらく誤ったケースを表す一貫性のない出力を検出する。
さらにcctestは、コード補完システムの最終的な出力として、すべての出力ケースの"平均"外観を主に反映する出力を選択することで、コード補完出力を修復する。
我々は8つのLLMベースのコード補完システムから誤ったケースを発生させることができる33,540個の入力(正の86%)を検出した。
修復により,BLEUスコアとLevenshteinの類似性について,コード補完システムの精度が40%から67%向上していることが明らかとなった。
関連論文リスト
- Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [69.38352966504401]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - REPOFUSE: Repository-Level Code Completion with Fused Dual Context [11.531678717514724]
本稿では,遅延トレードオフを伴わずにリポジトリレベルのコード補完を向上するための先駆的ソリューションであるREPOFUSEを紹介する。
本稿では、2種類の文脈を制限された大きさのプロンプトに効率的に凝縮する新しいランク・トランケート・ジェネレーション(RTG)手法を提案する。
REPOFUSEは既存のモデルよりも大幅に飛躍し、コード補完の正確な一致(EM)精度が40.90%から59.75%向上し、推論速度が26.8%向上した。
論文 参考訳(メタデータ) (2024-02-22T06:34:50Z) - CodePori: Large Scale Model for Autonomous Software Development by Using
Multi-Agents [3.8066447473175304]
大規模言語モデル(LLM)とGPT(Generative Pre-trained Transformer)は、ソフトウェア工学(SE)の分野を変えつつある。
本稿では,自然言語のプロンプトに基づく大規模かつ複雑なソフトウェアプロジェクトのコード生成を自動化する新しいモデルであるCodePoriを紹介する。
論文では、CodePoriが大規模なプロジェクトのために実行中のコードを生成し、数時間ではなく数分でソフトウェア開発プロセス全体を完了し、数ドルというコストで実行可能であることを示しています。
論文 参考訳(メタデータ) (2024-02-02T13:42:50Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - IRCoCo: Immediate Rewards-Guided Deep Reinforcement Learning for Code
Completion [38.863871578280936]
コード補完固有のDRLに基づく微調整フレームワークIRCoCoを提案する。
我々は、IRCoCoを用いた微調整済みLMが、コード補完タスクの大幅な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2024-01-30T00:18:20Z) - COCO: Testing Code Generation Systems via Concretized Instructions [33.13427092832396]
COCOは、コード生成システムの堅牢性をテストする技術である。
これは、コード生成システムの使用シナリオを利用して、元のプログラミング命令をより具体的にする。
我々はCOCOをCopilotやChatGPTといった商用ツールを含む8つの先進的なコード生成システムで評価した。
論文 参考訳(メタデータ) (2023-08-25T11:49:27Z) - A New Era in Software Security: Towards Self-Healing Software via Large
Language Models and Formal Verification [5.509906684981751]
本稿では,Large Language Models(LLM)とFormal Verification戦略を組み合わせた新しいソリューションを提案する。
提案手法は,脆弱なコードの修復において,最大80%の成功率を達成した。
論文 参考訳(メタデータ) (2023-05-24T05:54:10Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。