論文の概要: Security Weaknesses of Copilot-Generated Code in GitHub Projects: An Empirical Study
- arxiv url: http://arxiv.org/abs/2310.02059v3
- Date: Mon, 30 Dec 2024 01:42:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:03:14.477857
- Title: Security Weaknesses of Copilot-Generated Code in GitHub Projects: An Empirical Study
- Title(参考訳): GitHubプロジェクトにおけるコパイロット生成コードのセキュリティ欠陥:実証的研究
- Authors: Yujia Fu, Peng Liang, Amjed Tahir, Zengyang Li, Mojtaba Shahin, Jiaxin Yu, Jinfu Chen,
- Abstract要約: GitHub Copilotと他の2つのAIコード生成ツールによって生成されたコードスニペットを分析します。
分析の結果,733個のスニペットが検出され,セキュリティ上の脆弱性の可能性が高め,Pythonの29.5%,JavaScriptの24.2%が影響を受けることがわかった。
生成されたコードのセキュリティ問題を軽減するために提案する。
- 参考スコア(独自算出の注目度): 8.364612094301071
- License:
- Abstract: Modern code generation tools utilizing AI models like Large Language Models (LLMs) have gained increased popularity due to their ability to produce functional code. However, their usage presents security challenges, often resulting in insecure code merging into the code base. Thus, evaluating the quality of generated code, especially its security, is crucial. While prior research explored various aspects of code generation, the focus on security has been limited, mostly examining code produced in controlled environments rather than open source development scenarios. To address this gap, we conducted an empirical study, analyzing code snippets generated by GitHub Copilot and two other AI code generation tools (i.e., CodeWhisperer and Codeium) from GitHub projects. Our analysis identified 733 snippets, revealing a high likelihood of security weaknesses, with 29.5% of Python and 24.2% of JavaScript snippets affected. These issues span 43 Common Weakness Enumeration (CWE) categories, including significant ones like CWE-330: Use of Insufficiently Random Values, CWE-94: Improper Control of Generation of Code, and CWE-79: Cross-site Scripting. Notably, eight of those CWEs are among the 2023 CWE Top-25, highlighting their severity. We further examined using Copilot Chat to fix security issues in Copilot-generated code by providing Copilot Chat with warning messages from the static analysis tools, and up to 55.5% of the security issues can be fixed. We finally provide the suggestions for mitigating security issues in generated code.
- Abstract(参考訳): LLM(Large Language Models)のようなAIモデルを利用した現代的なコード生成ツールは、関数型コードを生成する能力によって人気が高まっている。
しかし、それらの使用法はセキュリティ上の問題を示し、多くの場合、安全でないコードがコードベースにマージされる。
したがって、生成したコードの品質、特にセキュリティを評価することが重要です。
以前の調査では、コード生成のさまざまな側面を調査していたが、セキュリティへの焦点は限られており、主にオープンソースの開発シナリオではなく、制御された環境で生成されたコードを調べている。
このギャップに対処するため、GitHub Copilotと他の2つのAIコード生成ツール(CodeWhispererとCodeium)が生成したコードスニペットをGitHubプロジェクトから分析して、実証的研究を行った。
分析の結果,733個のスニペットが検出され,セキュリティ上の脆弱性の可能性が高め,Pythonの29.5%,JavaScriptの24.2%が影響を受けることがわかった。
CWE-330: 不十分なランダム値の使用、CWE-94: コード生成の不適切な制御、CWE-79: クロスサイトスクリプティングなどである。
その中の8つは2023年のCWEトップ25に入っていて、その厳しさを強調しています。
さらに、静的解析ツールからの警告メッセージを備えたCopilot Chatを提供することで、Copilot生成コードのセキュリティ問題を修正するためにCopilot Chatを使用することを検討した。
最終的に、生成されたコードのセキュリティ問題を軽減するための提案を提示します。
関連論文リスト
- RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。
RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。
RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文 参考訳(メタデータ) (2024-11-12T13:30:06Z) - Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - Just another copy and paste? Comparing the security vulnerabilities of ChatGPT generated code and StackOverflow answers [4.320393382724067]
この研究は、ChatGPTとStackOverflowスニペットの脆弱性を実証的に比較する。
ChatGPTはSOスニペットにある302の脆弱性と比較して248の脆弱性を含んでおり、統計的に有意な差のある20%の脆弱性を生み出した。
この結果から,両プラットフォーム間の安全性の低いコード伝搬について,開発者が教育を受けていないことが示唆された。
論文 参考訳(メタデータ) (2024-03-22T20:06:41Z) - Assessing the Security of GitHub Copilot Generated Code -- A Targeted
Replication Study [11.644996472213611]
最近の研究は、GitHub CopilotやAmazon CodeWhispererといったAIによるコード生成ツールのセキュリティ問題を調査している。
本稿では、コパイロットのセキュリティの弱点を調査し、コパイロットが提案するコードにいくつかの弱点を発見したPearce et al.の研究を再現する。
我々の結果は、新しいバージョンのCopilotが改良されても、脆弱性のあるコード提案の割合が36.54%から27.25%に減少していることを示している。
論文 参考訳(メタデータ) (2023-11-18T22:12:59Z) - Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。
トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文 参考訳(メタデータ) (2023-02-14T18:43:34Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - ReCode: Robustness Evaluation of Code Generation Models [90.10436771217243]
コード生成モデルのための総合的ロバストネス評価ベンチマークであるReCodeを提案する。
ドクストリング、関数と変数名、コード構文、コードフォーマットのコードに特化して、30以上の変換をカスタマイズします。
ヒトのアノテータでは、摂動プロンプトの90%以上が本来のプロンプトの意味を変えていないことが確認された。
論文 参考訳(メタデータ) (2022-12-20T14:11:31Z) - Is GitHub's Copilot as Bad as Humans at Introducing Vulnerabilities in
Code? [12.350130201627186]
セキュリティの観点から,Copilot生成したコードの比較実験解析を行った。
われわれは、Copilotが人間の開発者と同じソフトウェア脆弱性をもたらす可能性が高いかどうかを調査する。
論文 参考訳(メタデータ) (2022-04-10T18:32:04Z) - An Empirical Cybersecurity Evaluation of GitHub Copilot's Code
Contributions [8.285068188878578]
GitHub Copilotは、オープンソースのGitHubコードに基づいてトレーニングされた言語モデルである。
コードにはしばしばバグが含まれているため、言語モデルが悪用可能なバグの多いコードから学べることは確かです。
これにより、Copilotのコードコントリビューションのセキュリティに対する懸念が高まる。
論文 参考訳(メタデータ) (2021-08-20T17:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。