論文の概要: Evaluating the Code Quality of AI-Assisted Code Generation Tools: An
Empirical Study on GitHub Copilot, Amazon CodeWhisperer, and ChatGPT
- arxiv url: http://arxiv.org/abs/2304.10778v2
- Date: Sun, 22 Oct 2023 01:48:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 13:07:14.725591
- Title: Evaluating the Code Quality of AI-Assisted Code Generation Tools: An
Empirical Study on GitHub Copilot, Amazon CodeWhisperer, and ChatGPT
- Title(参考訳): AI支援コード生成ツールのコード品質の評価:GitHub Copilot、Amazon CodeWhisperer、ChatGPTに関する実証的研究
- Authors: Burak Yeti\c{s}tiren, I\c{s}{\i}k \"Ozsoy, Miray Ayerdem, Eray
T\"uz\"un
- Abstract要約: AI支援のコード生成ツールは、ソフトウェア工学でますます普及している。
これらのツールの有名な例としては、GitHub Copilot、Amazon CodeWhisperer、OpenAIのChatGPTがある。
本研究の目的は,これらの著名なコード生成ツールのパフォーマンスを,コード品質指標の観点から比較することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: AI-assisted code generation tools have become increasingly prevalent
in software engineering, offering the ability to generate code from natural
language prompts or partial code inputs. Notable examples of these tools
include GitHub Copilot, Amazon CodeWhisperer, and OpenAI's ChatGPT.
Objective: This study aims to compare the performance of these prominent code
generation tools in terms of code quality metrics, such as Code Validity, Code
Correctness, Code Security, Code Reliability, and Code Maintainability, to
identify their strengths and shortcomings.
Method: We assess the code generation capabilities of GitHub Copilot, Amazon
CodeWhisperer, and ChatGPT using the benchmark HumanEval Dataset. The generated
code is then evaluated based on the proposed code quality metrics.
Results: Our analysis reveals that the latest versions of ChatGPT, GitHub
Copilot, and Amazon CodeWhisperer generate correct code 65.2%, 46.3%, and 31.1%
of the time, respectively. In comparison, the newer versions of GitHub CoPilot
and Amazon CodeWhisperer showed improvement rates of 18% for GitHub Copilot and
7% for Amazon CodeWhisperer. The average technical debt, considering code
smells, was found to be 8.9 minutes for ChatGPT, 9.1 minutes for GitHub
Copilot, and 5.6 minutes for Amazon CodeWhisperer.
Conclusions: This study highlights the strengths and weaknesses of some of
the most popular code generation tools, providing valuable insights for
practitioners. By comparing these generators, our results may assist
practitioners in selecting the optimal tool for specific tasks, enhancing their
decision-making process.
- Abstract(参考訳): コンテキスト: AIによるコード生成ツールは、自然言語のプロンプトや部分的なコード入力からコードを生成する機能を提供するソフトウェア工学において、ますます普及している。
これらのツールの有名な例としては、GitHub Copilot、Amazon CodeWhisperer、OpenAIのChatGPTがある。
目的: 本研究の目的は,これらの著名なコード生成ツールのパフォーマンスを,コードの妥当性,コードの正確性,コードのセキュリティ,コードの信頼性,コードの保守性といったコード品質指標の観点から比較することで,その長所と短所を識別することにある。
方法:HumanEval Datasetのベンチマークを用いて,GitHub Copilot,Amazon CodeWhisperer,ChatGPTのコード生成機能を評価する。
生成されたコードは、提案するコード品質メトリクスに基づいて評価される。
結果:我々の分析によると、ChatGPT、GitHub Copilot、Amazon CodeWhispererの最新バージョンは、それぞれ65.2%、46.3%、31.1%の正しいコードを生成する。
一方、github copilotとamazon codewhispererの新しいバージョンでは、github copilotでは18%、amazon codewhispererでは7%の改善率を示した。
コードの臭いを考慮すると、平均的な技術的負債はChatGPTで8.9分、GitHub Copilotで9.1分、Amazon CodeWhispererで5.6分であった。
結論: この研究は、最も人気のあるコード生成ツールの強みと弱みを強調し、実践者にとって価値のある洞察を提供する。
これらのジェネレータを比較することで,特定のタスクに最適なツールを選択し,意思決定プロセスを強化できる。
関連論文リスト
- OpenCodeInterpreter: Integrating Code Generation with Execution and
Refinement [58.034012276819425]
我々はOpenCodeInterpreterを紹介した。OpenCodeInterpreterは、コードを生成、実行、反復的に精製するためのオープンソースのコードシステムのファミリーである。
我々は,HumanEvalやMBPP,EvalPlusの強化バージョンなど,主要なベンチマークを対象としたOpenCodeInterpreterの総合評価を行った。
論文 参考訳(メタデータ) (2024-02-22T16:06:23Z) - Assessing AI-Based Code Assistants in Method Generation Tasks [5.32539007352208]
今回の調査では、メソッド生成タスクにおいて、GitHub Copilot、Tabnine、ChatGPT、Google Bardの4つのAIベースのコードアシスタントを比較した。
その結果、コードアシスタントは相補的な機能を持つが、適切なコードを生成することは滅多にない。
論文 参考訳(メタデータ) (2024-02-14T08:52:45Z) - Assessing the Promise and Pitfalls of ChatGPT for Automated Code
Generation [2.0400340435492272]
本稿では,著名な大規模言語モデルであるChatGPTのコード生成能力を総合的に評価する。
5つのカテゴリにまたがる131のコード生成プロンプトのデータセットをキュレートして、堅牢な分析を可能にした。
コードソリューションはChatGPTと人間によってすべてのプロンプトで生成され、262のコードサンプルが得られた。
論文 参考訳(メタデータ) (2023-11-05T12:56:40Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - Security Weaknesses of Copilot Generated Code in GitHub [8.364612094301071]
GitHub Copilotが生成したコードスニペットをGitHubプロジェクトから分析します。
分析の結果,Copilotが生成した452個のスニペットが検出された。
また、実践者は、対応するセキュリティ意識とスキルを育む必要があることも示している。
論文 参考訳(メタデータ) (2023-10-03T14:01:28Z) - Exploring the Potential of ChatGPT in Automated Code Refinement: An
Empirical Study [0.0]
最先端の言語モデルであるChatGPTは、様々な自然言語処理タスクにおいて印象的なパフォーマンスを示している。
コードレビュータスクにおけるChatGPTの機能を理解するための実証的研究を行った。
その結果,ChatGPTは高いEMとBLEUのスコアを22.78と76.44で達成し,最先端のコードレビューデータセットでは15.50と62.88しか達成していないことがわかった。
論文 参考訳(メタデータ) (2023-09-15T07:41:33Z) - CodeBERTScore: Evaluating Code Generation with Pretrained Models of Code [75.08995072899594]
コード生成のための評価指標であるCodeBERTScoreを提案する。
CodeBERTScoreは生成されたコードの前に入力された自然言語をエンコードする。
CodeBERTScoreは、既存のすべての指標よりも、人間の嗜好と機能的正しさとの相関性が高いことがわかった。
論文 参考訳(メタデータ) (2023-02-10T22:12:05Z) - Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。
実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。
Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文 参考訳(メタデータ) (2022-11-29T18:56:33Z) - An Empirical Cybersecurity Evaluation of GitHub Copilot's Code
Contributions [8.285068188878578]
GitHub Copilotは、オープンソースのGitHubコードに基づいてトレーニングされた言語モデルである。
コードにはしばしばバグが含まれているため、言語モデルが悪用可能なバグの多いコードから学べることは確かです。
これにより、Copilotのコードコントリビューションのセキュリティに対する懸念が高まる。
論文 参考訳(メタデータ) (2021-08-20T17:30:33Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。