論文の概要: Evaluating the Code Quality of AI-Assisted Code Generation Tools: An
Empirical Study on GitHub Copilot, Amazon CodeWhisperer, and ChatGPT
- arxiv url: http://arxiv.org/abs/2304.10778v2
- Date: Sun, 22 Oct 2023 01:48:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 13:07:14.725591
- Title: Evaluating the Code Quality of AI-Assisted Code Generation Tools: An
Empirical Study on GitHub Copilot, Amazon CodeWhisperer, and ChatGPT
- Title(参考訳): AI支援コード生成ツールのコード品質の評価:GitHub Copilot、Amazon CodeWhisperer、ChatGPTに関する実証的研究
- Authors: Burak Yeti\c{s}tiren, I\c{s}{\i}k \"Ozsoy, Miray Ayerdem, Eray
T\"uz\"un
- Abstract要約: AI支援のコード生成ツールは、ソフトウェア工学でますます普及している。
これらのツールの有名な例としては、GitHub Copilot、Amazon CodeWhisperer、OpenAIのChatGPTがある。
本研究の目的は,これらの著名なコード生成ツールのパフォーマンスを,コード品質指標の観点から比較することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: AI-assisted code generation tools have become increasingly prevalent
in software engineering, offering the ability to generate code from natural
language prompts or partial code inputs. Notable examples of these tools
include GitHub Copilot, Amazon CodeWhisperer, and OpenAI's ChatGPT.
Objective: This study aims to compare the performance of these prominent code
generation tools in terms of code quality metrics, such as Code Validity, Code
Correctness, Code Security, Code Reliability, and Code Maintainability, to
identify their strengths and shortcomings.
Method: We assess the code generation capabilities of GitHub Copilot, Amazon
CodeWhisperer, and ChatGPT using the benchmark HumanEval Dataset. The generated
code is then evaluated based on the proposed code quality metrics.
Results: Our analysis reveals that the latest versions of ChatGPT, GitHub
Copilot, and Amazon CodeWhisperer generate correct code 65.2%, 46.3%, and 31.1%
of the time, respectively. In comparison, the newer versions of GitHub CoPilot
and Amazon CodeWhisperer showed improvement rates of 18% for GitHub Copilot and
7% for Amazon CodeWhisperer. The average technical debt, considering code
smells, was found to be 8.9 minutes for ChatGPT, 9.1 minutes for GitHub
Copilot, and 5.6 minutes for Amazon CodeWhisperer.
Conclusions: This study highlights the strengths and weaknesses of some of
the most popular code generation tools, providing valuable insights for
practitioners. By comparing these generators, our results may assist
practitioners in selecting the optimal tool for specific tasks, enhancing their
decision-making process.
- Abstract(参考訳): コンテキスト: AIによるコード生成ツールは、自然言語のプロンプトや部分的なコード入力からコードを生成する機能を提供するソフトウェア工学において、ますます普及している。
これらのツールの有名な例としては、GitHub Copilot、Amazon CodeWhisperer、OpenAIのChatGPTがある。
目的: 本研究の目的は,これらの著名なコード生成ツールのパフォーマンスを,コードの妥当性,コードの正確性,コードのセキュリティ,コードの信頼性,コードの保守性といったコード品質指標の観点から比較することで,その長所と短所を識別することにある。
方法:HumanEval Datasetのベンチマークを用いて,GitHub Copilot,Amazon CodeWhisperer,ChatGPTのコード生成機能を評価する。
生成されたコードは、提案するコード品質メトリクスに基づいて評価される。
結果:我々の分析によると、ChatGPT、GitHub Copilot、Amazon CodeWhispererの最新バージョンは、それぞれ65.2%、46.3%、31.1%の正しいコードを生成する。
一方、github copilotとamazon codewhispererの新しいバージョンでは、github copilotでは18%、amazon codewhispererでは7%の改善率を示した。
コードの臭いを考慮すると、平均的な技術的負債はChatGPTで8.9分、GitHub Copilotで9.1分、Amazon CodeWhispererで5.6分であった。
結論: この研究は、最も人気のあるコード生成ツールの強みと弱みを強調し、実践者にとって価値のある洞察を提供する。
これらのジェネレータを比較することで,特定のタスクに最適なツールを選択し,意思決定プロセスを強化できる。
関連論文リスト
- Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - Benchmarking ChatGPT, Codeium, and GitHub Copilot: A Comparative Study of AI-Driven Programming and Debugging Assistants [0.0]
コード生成やバグ修正、最適化といったタスクには、大きな言語モデル(LLM)が不可欠になっています。
本稿では、ChatGPT、Codeium、GitHub Copilotの比較研究を行い、LeetCode問題におけるパフォーマンスを評価する。
論文 参考訳(メタデータ) (2024-09-30T03:53:40Z) - Where Are Large Language Models for Code Generation on GitHub? [10.389763758883975]
ChatGPTとCopilotは、GitHub上でコードを生成するために最も頻繁に使用される。
ほとんどのChatGPT/Copilot生成コードスニペットは比較的短く、複雑さが低い。
バグによる修正は、さまざまな言語でわずか3%から8%まで、さらに少ない。
論文 参考訳(メタデータ) (2024-06-27T21:47:27Z) - Impact of the Availability of ChatGPT on Software Development: A Synthetic Difference in Differences Estimation using GitHub Data [49.1574468325115]
ChatGPTは、ソフトウェア生産効率を向上させるAIツールである。
10万人あたりのgitプッシュ数、リポジトリ数、ユニークな開発者数に対するChatGPTの影響を見積もっています。
これらの結果は、ChatGPTのようなAIツールが開発者の生産性を大幅に向上させる可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-06-16T19:11:15Z) - OpenCodeInterpreter: Integrating Code Generation with Execution and
Refinement [58.034012276819425]
我々はOpenCodeInterpreterを紹介した。OpenCodeInterpreterは、コードを生成、実行、反復的に精製するためのオープンソースのコードシステムのファミリーである。
我々は,HumanEvalやMBPP,EvalPlusの強化バージョンなど,主要なベンチマークを対象としたOpenCodeInterpreterの総合評価を行った。
論文 参考訳(メタデータ) (2024-02-22T16:06:23Z) - Assessing AI-Based Code Assistants in Method Generation Tasks [5.32539007352208]
今回の調査では、メソッド生成タスクにおいて、GitHub Copilot、Tabnine、ChatGPT、Google Bardの4つのAIベースのコードアシスタントを比較した。
その結果、コードアシスタントは相補的な機能を持つが、適切なコードを生成することは滅多にない。
論文 参考訳(メタデータ) (2024-02-14T08:52:45Z) - Security Weaknesses of Copilot Generated Code in GitHub [8.364612094301071]
GitHub Copilotが生成したコードスニペットをGitHubプロジェクトから分析します。
分析の結果,Copilotが生成した452個のスニペットが検出された。
また、実践者は、対応するセキュリティ意識とスキルを育む必要があることも示している。
論文 参考訳(メタデータ) (2023-10-03T14:01:28Z) - CodeGeeX: A Pre-Trained Model for Code Generation with Multilingual Benchmarking on HumanEval-X [50.008474888951525]
コード生成に130億のパラメータを持つ多言語モデルであるCodeGeeXを紹介する。
CodeGeeXは、23のプログラミング言語の8500億のトークンで事前訓練されている。
論文 参考訳(メタデータ) (2023-03-30T17:34:01Z) - Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。
トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文 参考訳(メタデータ) (2023-02-14T18:43:34Z) - An Empirical Cybersecurity Evaluation of GitHub Copilot's Code
Contributions [8.285068188878578]
GitHub Copilotは、オープンソースのGitHubコードに基づいてトレーニングされた言語モデルである。
コードにはしばしばバグが含まれているため、言語モデルが悪用可能なバグの多いコードから学べることは確かです。
これにより、Copilotのコードコントリビューションのセキュリティに対する懸念が高まる。
論文 参考訳(メタデータ) (2021-08-20T17:30:33Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。