論文の概要: An Empirical Cybersecurity Evaluation of GitHub Copilot's Code
Contributions
- arxiv url: http://arxiv.org/abs/2108.09293v1
- Date: Fri, 20 Aug 2021 17:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 13:21:24.083548
- Title: An Empirical Cybersecurity Evaluation of GitHub Copilot's Code
Contributions
- Title(参考訳): GitHub Copilotのコードコントリビューションに関する実証的サイバーセキュリティ評価
- Authors: Hammond Pearce, Baleegh Ahmad, Benjamin Tan, Brendan Dolan-Gavitt,
Ramesh Karri
- Abstract要約: GitHub Copilotは、オープンソースのGitHubコードに基づいてトレーニングされた言語モデルである。
コードにはしばしばバグが含まれているため、言語モデルが悪用可能なバグの多いコードから学べることは確かです。
これにより、Copilotのコードコントリビューションのセキュリティに対する懸念が高まる。
- 参考スコア(独自算出の注目度): 8.285068188878578
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: There is burgeoning interest in designing AI-based systems to assist humans
in designing computing systems, including tools that automatically generate
computer code. The most notable of these comes in the form of the first
self-described `AI pair programmer', GitHub Copilot, a language model trained
over open-source GitHub code. However, code often contains bugs - and so, given
the vast quantity of unvetted code that Copilot has processed, it is certain
that the language model will have learned from exploitable, buggy code. This
raises concerns on the security of Copilot's code contributions. In this work,
we systematically investigate the prevalence and conditions that can cause
GitHub Copilot to recommend insecure code. To perform this analysis we prompt
Copilot to generate code in scenarios relevant to high-risk CWEs (e.g. those
from MITRE's "Top 25" list). We explore Copilot's performance on three distinct
code generation axes -- examining how it performs given diversity of
weaknesses, diversity of prompts, and diversity of domains. In total, we
produce 89 different scenarios for Copilot to complete, producing 1,692
programs. Of these, we found approximately 40% to be vulnerable.
- Abstract(参考訳): コンピュータコードを自動的に生成するツールを含む、人間がコンピュータシステムの設計を支援するAIベースのシステムを設計することへの関心は急速に高まっている。
最も有名なのは、オープンソースのGitHubコードでトレーニングされた言語モデルである、最初の自己記述型の‘AIペアプログラマ’であるGitHub Copilotである。
しかし、コードにはしばしばバグが含まれているため、Copilotが処理した大量の未検証コードを考えると、言語モデルが悪用可能なバグのあるコードから学べることは確かです。
これにより、copilotのコードコントリビュートに対するセキュリティの懸念が高まる。
本研究では,GitHub Copilotがセキュアでないコードを推奨する原因となる状況と状況について,体系的に調査する。
この分析を実行するために、copilotにハイリスクcweに関連するシナリオでコードを生成するように促します。
MITREの"Top 25"リストから引用)。
弱点の多様性、プロンプトの多様性、ドメインの多様性を考慮して、3つの異なるコード生成軸でcopilotのパフォーマンスを調べます。
総じて、Copilotが完成するための89のシナリオを生成し、1,692のプログラムを生成します。
これらのうち、約40%が脆弱であることが分かりました。
関連論文リスト
- RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。
RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。
RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文 参考訳(メタデータ) (2024-11-12T13:30:06Z) - GitHub Copilot: the perfect Code compLeeter? [3.708656266586145]
本稿では,GitHub Copilotが生成するコード品質をLeetCode問題セットに基づいて評価することを目的とする。
我々は、コード生成段階でのCopilotの信頼性、生成したコードの正確性、およびプログラミング言語への依存性を評価する。
論文 参考訳(メタデータ) (2024-06-17T08:38:29Z) - Exploring the Effect of Multiple Natural Languages on Code Suggestion
Using GitHub Copilot [46.822148186169144]
GitHub Copilotは、プログラム合成を自動化するAI対応ツールである。
最近の研究では、様々なプログラミングタスクにおけるCopilotの能力について広く研究されている。
しかし、異なる自然言語がコード提案に与える影響についてはほとんど分かっていない。
論文 参考訳(メタデータ) (2024-02-02T14:30:02Z) - Exploring the Problems, their Causes and Solutions of AI Pair Programming: A Study on GitHub and Stack Overflow [6.724815667295355]
AIプログラマペアであるGitHub Copilotは、コードスニペットの大規模なコーパスでトレーニングされた機械学習モデルを使用して、コード提案を生成する。
ソフトウェア開発で人気があるにもかかわらず、Copilotと仕事をする実践者の実際の経験に関する実証的な証拠は限られている。
473のGitHubイシュー、706のGitHubディスカッション、142のStack Overflowポストからデータを収集しました。
論文 参考訳(メタデータ) (2023-11-02T06:24:38Z) - Security Weaknesses of Copilot Generated Code in GitHub [8.364612094301071]
GitHub Copilotが生成したコードスニペットをGitHubプロジェクトから分析します。
分析の結果,Copilotが生成した452個のスニペットが検出された。
また、実践者は、対応するセキュリティ意識とスキルを育む必要があることも示している。
論文 参考訳(メタデータ) (2023-10-03T14:01:28Z) - Demystifying Practices, Challenges and Expected Features of Using GitHub
Copilot [3.655281304961642]
Stack Overflow(SO)とGitHubの議論からデータを収集し分析することで、実証的研究を行った。
私たちは、Copilotで使用されるプログラミング言語、技術、実装された関数、利点、制限、そしてCopilotを使用する際の課題を特定しました。
以上の結果から,Copilotの使用は二重刃の剣のようなもので,使用するかどうかを判断する際には,さまざまな側面を慎重に検討する必要があることが示唆された。
論文 参考訳(メタデータ) (2023-09-11T16:39:37Z) - Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。
トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文 参考訳(メタデータ) (2023-02-14T18:43:34Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Level 2 Autonomous Driving on a Single Device: Diving into the Devils of
Openpilot [112.21008828205409]
Comma.aiは、1台のカメラとボードを内蔵した999ドルのアフターマーケットデバイスがL2シナリオを処理する能力を持っていると主張している。
Comma.aiがリリースした全システムのオープンソースソフトウェアとともに、プロジェクトはOpenpilotと名付けられた。
このレポートでは、最新の知見を公開し、産業製品レベルでのエンドツーエンドの自動運転という、新たな視点について光を当てたいと思います。
論文 参考訳(メタデータ) (2022-06-16T13:43:52Z) - Is GitHub's Copilot as Bad as Humans at Introducing Vulnerabilities in
Code? [12.350130201627186]
セキュリティの観点から,Copilot生成したコードの比較実験解析を行った。
われわれは、Copilotが人間の開発者と同じソフトウェア脆弱性をもたらす可能性が高いかどうかを調査する。
論文 参考訳(メタデータ) (2022-04-10T18:32:04Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。