論文の概要: GitHub Copilot: the perfect Code compLeeter?
- arxiv url: http://arxiv.org/abs/2406.11326v1
- Date: Mon, 17 Jun 2024 08:38:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 15:41:08.149954
- Title: GitHub Copilot: the perfect Code compLeeter?
- Title(参考訳): GitHub Copilot: 完璧なCode compLeeter?
- Authors: Ilja Siroš, Dave Singelée, Bart Preneel,
- Abstract要約: 本稿では,GitHub Copilotが生成するコード品質をLeetCode問題セットに基づいて評価することを目的とする。
我々は、コード生成段階でのCopilotの信頼性、生成したコードの正確性、およびプログラミング言語への依存性を評価する。
- 参考スコア(独自算出の注目度): 3.708656266586145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to evaluate GitHub Copilot's generated code quality based on the LeetCode problem set using a custom automated framework. We evaluate the results of Copilot for 4 programming languages: Java, C++, Python3 and Rust. We aim to evaluate Copilot's reliability in the code generation stage, the correctness of the generated code and its dependency on the programming language, problem's difficulty level and problem's topic. In addition to that, we evaluate code's time and memory efficiency and compare it to the average human results. In total, we generate solutions for 1760 problems for each programming language and evaluate all the Copilot's suggestions for each problem, resulting in over 50000 submissions to LeetCode spread over a 2-month period. We found that Copilot successfully solved most of the problems. However, Copilot was rather more successful in generating code in Java and C++ than in Python3 and Rust. Moreover, in case of Python3 Copilot proved to be rather unreliable in the code generation phase. We also discovered that Copilot's top-ranked suggestions are not always the best. In addition, we analysed how the topic of the problem impacts the correctness rate. Finally, based on statistics information from LeetCode, we can conclude that Copilot generates more efficient code than an average human.
- Abstract(参考訳): 本稿では,GitHub Copilotが生成するコード品質を,カスタム自動フレームワークを使用してLeetCode問題セットに基づいて評価することを目的とする。
我々は、Java、C++、Python3、Rustの4つのプログラミング言語に対するCopilotの結果を評価した。
我々は,コード生成段階におけるCopilotの信頼性,生成したコードの正確性,プログラミング言語への依存性,問題の難易度,問題のトピックを評価することを目的としている。
それに加えて、コードの時間とメモリ効率を評価し、平均的な人間の結果と比較する。
総じて、各プログラミング言語の1760個の問題に対するソリューションを生成し、各問題に対するすべてのCopilotの提案を評価し、その結果、LeetCodeへの50000以上の提案が2ヶ月にわたって広まりました。
私たちは、Copilotがほとんどの問題をうまく解決できたことに気付いた。
しかし、CopilotはPython3やRustよりも、JavaとC++でコードを生成することに成功していた。
さらに、Python3 Copilotの場合、コード生成フェーズではかなり信頼できないことが判明した。
また、Copilotのトップランクの提案が必ずしもベストではないこともわかりました。
さらに,問題の話題が正しさにどのように影響するかを分析した。
最後に、LeetCodeの統計情報に基づいて、Copilotが平均的な人間よりも効率的なコードを生成すると結論付けることができる。
関連論文リスト
- Exploring the Effect of Multiple Natural Languages on Code Suggestion
Using GitHub Copilot [46.822148186169144]
GitHub Copilotは、プログラム合成を自動化するAI対応ツールである。
最近の研究では、様々なプログラミングタスクにおけるCopilotの能力について広く研究されている。
しかし、異なる自然言語がコード提案に与える影響についてはほとんど分かっていない。
論文 参考訳(メタデータ) (2024-02-02T14:30:02Z) - Copilot-in-the-Loop: Fixing Code Smells in Copilot-Generated Python Code using Copilot [2.3353795064263543]
Pythonはコードの臭いがある場合、可読性と保守性が低下する。
大規模言語モデルの最近の進歩は、コード生成と理解の両方のためのAI対応ツールへの関心が高まっている。
GitHub Copilotは、広く使われているツールのひとつだ。
2023年9月にリリースされたCopilot Chatは、自然言語によるコーディングを容易にするインタラクティブツールとして機能する。
論文 参考訳(メタデータ) (2024-01-25T13:39:54Z) - Exploring the Problems, their Causes and Solutions of AI Pair Programming: A Study on GitHub and Stack Overflow [6.724815667295355]
AIプログラマペアであるGitHub Copilotは、コードスニペットの大規模なコーパスでトレーニングされた機械学習モデルを使用して、コード提案を生成する。
ソフトウェア開発で人気があるにもかかわらず、Copilotと仕事をする実践者の実際の経験に関する実証的な証拠は限られている。
473のGitHubイシュー、706のGitHubディスカッション、142のStack Overflowポストからデータを収集しました。
論文 参考訳(メタデータ) (2023-11-02T06:24:38Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Measuring the Runtime Performance of Code Produced with GitHub Copilot [1.6021036144262577]
開発者がGitHub Copilotを使用する場合と、そうでない場合とで生成されたコードのランタイムパフォーマンスを評価します。
結果から,Copilotは実行時のパフォーマンスが著しく遅いコードを生成する可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-10T20:14:52Z) - DS-1000: A Natural and Reliable Benchmark for Data Science Code
Generation [70.96868419971756]
DS-1000は7つのPythonライブラリにまたがる1000のデータサイエンス問題のあるコード生成ベンチマークである。
まず、StackOverflowからそれらを収集して以来の、多様で現実的で実践的なユースケースを反映しています。
第2に、私たちの自動評価は非常に具体的(信頼性)です -- 評価が受け入れているすべてのCodex予測ソリューションに対して、そのわずか1.8%が間違っています。
論文 参考訳(メタデータ) (2022-11-18T17:20:27Z) - GitHub Copilot AI pair programmer: Asset or Liability? [14.572381978575182]
2つの異なるプログラミングタスクにおいて、Copilotの能力について検討する。
我々は、Copilotの提案したソリューションを、プログラミングタスクのセットにおける人間のプログラマのソリューションと比較する。
その結果、Copilotは、ほとんどすべての基本的なアルゴリズム問題に対するソリューションを提供することができることがわかった。
論文 参考訳(メタデータ) (2022-06-30T15:00:03Z) - AVATAR: A Parallel Corpus for Java-Python Program Translation [77.86173793901139]
プログラム翻訳とは、ある言語から別の言語へソースコードを移行することを指す。
AVATARは9,515のプログラミング問題とそのソリューションをJavaとPythonという2つの人気のある言語で記述したものです。
論文 参考訳(メタデータ) (2021-08-26T05:44:20Z) - An Empirical Cybersecurity Evaluation of GitHub Copilot's Code
Contributions [8.285068188878578]
GitHub Copilotは、オープンソースのGitHubコードに基づいてトレーニングされた言語モデルである。
コードにはしばしばバグが含まれているため、言語モデルが悪用可能なバグの多いコードから学べることは確かです。
これにより、Copilotのコードコントリビューションのセキュリティに対する懸念が高まる。
論文 参考訳(メタデータ) (2021-08-20T17:30:33Z) - Break-It-Fix-It: Unsupervised Learning for Program Repair [90.55497679266442]
我々は2つの重要なアイデアを持つ新しいトレーニング手法であるBreak-It-Fix-It (BIFI)を提案する。
批判者は、実際の悪い入力でフィクスダーの出力をチェックし、トレーニングデータに良い(固定された)出力を追加する。
これらのアイデアに基づいて、よりペア化されたデータを生成するために、ブレーカとフィクスチャを同時に使用しながら、繰り返し更新する。
BIFIは既存のメソッドより優れており、GitHub-Pythonで90.5%、DeepFixで71.7%の修正精度がある。
論文 参考訳(メタデータ) (2021-06-11T20:31:04Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。