論文の概要: Just another copy and paste? Comparing the security vulnerabilities of ChatGPT generated code and StackOverflow answers
- arxiv url: http://arxiv.org/abs/2403.15600v1
- Date: Fri, 22 Mar 2024 20:06:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 21:51:43.659048
- Title: Just another copy and paste? Comparing the security vulnerabilities of ChatGPT generated code and StackOverflow answers
- Title(参考訳): もうひとつのコピー&ペースト? ChatGPT生成コードのセキュリティ脆弱性とStackOverflowの回答の比較
- Authors: Sivana Hamer, Marcelo d'Amorim, Laurie Williams,
- Abstract要約: この研究は、ChatGPTとStackOverflowスニペットの脆弱性を実証的に比較する。
ChatGPTはSOスニペットにある302の脆弱性と比較して248の脆弱性を含んでおり、統計的に有意な差のある20%の脆弱性を生み出した。
この結果から,両プラットフォーム間の安全性の低いコード伝搬について,開発者が教育を受けていないことが示唆された。
- 参考スコア(独自算出の注目度): 4.320393382724067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sonatype's 2023 report found that 97% of developers and security leads integrate generative Artificial Intelligence (AI), particularly Large Language Models (LLMs), into their development process. Concerns about the security implications of this trend have been raised. Developers are now weighing the benefits and risks of LLMs against other relied-upon information sources, such as StackOverflow (SO), requiring empirical data to inform their choice. In this work, our goal is to raise software developers awareness of the security implications when selecting code snippets by empirically comparing the vulnerabilities of ChatGPT and StackOverflow. To achieve this, we used an existing Java dataset from SO with security-related questions and answers. Then, we asked ChatGPT the same SO questions, gathering the generated code for comparison. After curating the dataset, we analyzed the number and types of Common Weakness Enumeration (CWE) vulnerabilities of 108 snippets from each platform using CodeQL. ChatGPT-generated code contained 248 vulnerabilities compared to the 302 vulnerabilities found in SO snippets, producing 20% fewer vulnerabilities with a statistically significant difference. Additionally, ChatGPT generated 19 types of CWE, fewer than the 22 found in SO. Our findings suggest developers are under-educated on insecure code propagation from both platforms, as we found 274 unique vulnerabilities and 25 types of CWE. Any code copied and pasted, created by AI or humans, cannot be trusted blindly, requiring good software engineering practices to reduce risk. Future work can help minimize insecure code propagation from any platform.
- Abstract(参考訳): Sonatypeの2023年のレポートによると、開発者とセキュリティリーダの97%が、生成人工知能(AI)、特にLarge Language Models(LLM)を開発プロセスに統合している。
この傾向のセキュリティへの影響に関する懸念が高まっている。
開発者は現在、StackOverflow(SO)など、他の信頼できる情報ソースに対してLLMのメリットとリスクを検討中で、選択を通知するために経験的なデータを必要としている。
本研究の目的は,ChatGPTとStackOverflowの脆弱性を実証的に比較することによって,コードスニペットを選択する際のセキュリティへの影響について,ソフトウェア開発者の意識を高めることです。
これを実現するために、セキュリティ関連の質問と回答でSOから既存のJavaデータセットを使用しました。
そして、私たちはChatGPTに同じSO質問をし、生成されたコードを集めて比較しました。
データセットをキュレートした後、CodeQLを使用して、各プラットフォームから108のスニペットのCommon Weakness Enumeration(CWE)脆弱性の数とタイプを分析しました。
ChatGPTの生成したコードは、SOスニペットにある302の脆弱性と比較して248の脆弱性を含んでおり、統計的に有意な差のある20%の脆弱性を生み出した。
さらに、ChatGPTは19種類のCWEを生成した。
当社の調査結果は,274のユニークな脆弱性と25種類のCWEを発見したことから,両プラットフォームからのセキュリティの低いコードの伝播について,開発者が教育を受けていないことを示唆している。
AIや人間によって作成されたコピー&ペーストされたコードは、リスクを減らすために優れたソフトウェアエンジニアリングプラクティスを必要とするため、盲目的に信頼できない。
今後の作業は、どんなプラットフォームからもセキュアでないコードの伝播を最小化するのに役立ちます。
関連論文リスト
- Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - Identifying Smart Contract Security Issues in Code Snippets from Stack Overflow [34.79673982473015]
SOCheckerは、不完全なSOスマートコントラクトコードスニペットの潜在的な脆弱性を特定するツールである。
その結果、SOCheckerのF1スコアは68.2%で、GPT-3.5とGPT-4を大きく上回った。
この結果から,Q&A Webサイトのコードスニペットのセキュリティ向上の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2024-07-18T08:25:16Z) - Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval [20.959848710829878]
大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらした。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。
我々は,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。
論文 参考訳(メタデータ) (2024-07-02T16:13:21Z) - Impact of the Availability of ChatGPT on Software Development: A Synthetic Difference in Differences Estimation using GitHub Data [49.1574468325115]
ChatGPTは、ソフトウェア生産効率を向上させるAIツールである。
10万人あたりのgitプッシュ数、リポジトリ数、ユニークな開発者数に対するChatGPTの影響を見積もっています。
これらの結果は、ChatGPTのようなAIツールが開発者の生産性を大幅に向上させる可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-06-16T19:11:15Z) - An Investigation into Misuse of Java Security APIs by Large Language Models [9.453671056356837]
本稿では,Java のセキュリティ API ユースケースに対する ChatGPT のコード生成に対する信頼性を体系的に評価する。
タスク毎に30の試行にまたがるコードインスタンスの約70%には、セキュリティAPIの誤用が含まれており、20の異なる誤用タイプが識別されている。
約半数のタスクにおいて、この割合は100%に達し、開発者がセキュリティAPIコードを安全に実装するためにChatGPTに頼るまでには長い道のりがあることを示している。
論文 参考訳(メタデータ) (2024-04-04T22:52:41Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Security Weaknesses of Copilot Generated Code in GitHub [8.364612094301071]
GitHub Copilotが生成したコードスニペットをGitHubプロジェクトから分析します。
分析の結果,Copilotが生成した452個のスニペットが検出された。
また、実践者は、対応するセキュリティ意識とスキルを育む必要があることも示している。
論文 参考訳(メタデータ) (2023-10-03T14:01:28Z) - How well does LLM generate security tests? [8.454827764115631]
開発者は生産性とソフトウェア品質を改善するために、しばしばサードパーティライブラリ(Lib)の上にソフトウェアを構築する。
こうした攻撃をサプライチェーン攻撃と呼び、2022年には742%増加した。
セキュリティテストを生成するためにChatGPT-4.0を使用しました。
論文 参考訳(メタデータ) (2023-10-01T16:00:58Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。