Fugu-MT 論文翻訳(概要): An Empirical Cybersecurity Evaluation of GitHub Copilot's Code Contributions

論文の概要: An Empirical Cybersecurity Evaluation of GitHub Copilot's Code Contributions

arxiv url: http://arxiv.org/abs/2108.09293v2
Date: Mon, 23 Aug 2021 23:52:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-25 09:21:19.146935
Title: An Empirical Cybersecurity Evaluation of GitHub Copilot's Code Contributions
Title（参考訳）: GitHub Copilotのコードコントリビューションに関する実証的サイバーセキュリティ評価
Authors: Hammond Pearce, Baleegh Ahmad, Benjamin Tan, Brendan Dolan-Gavitt, Ramesh Karri
Abstract要約: GitHub Copilotは、オープンソースのGitHubコードに基づいてトレーニングされた言語モデルである。コードにはしばしばバグが含まれているため、言語モデルが悪用可能なバグの多いコードから学べることは確かです。これにより、Copilotのコードコントリビューションのセキュリティに対する懸念が高まる。
参考スコア（独自算出の注目度）: 8.285068188878578
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: There is burgeoning interest in designing AI-based systems to assist humans in designing computing systems, including tools that automatically generate computer code. The most notable of these comes in the form of the first self-described `AI pair programmer', GitHub Copilot, a language model trained over open-source GitHub code. However, code often contains bugs - and so, given the vast quantity of unvetted code that Copilot has processed, it is certain that the language model will have learned from exploitable, buggy code. This raises concerns on the security of Copilot's code contributions. In this work, we systematically investigate the prevalence and conditions that can cause GitHub Copilot to recommend insecure code. To perform this analysis we prompt Copilot to generate code in scenarios relevant to high-risk CWEs (e.g. those from MITRE's "Top 25" list). We explore Copilot's performance on three distinct code generation axes -- examining how it performs given diversity of weaknesses, diversity of prompts, and diversity of domains. In total, we produce 89 different scenarios for Copilot to complete, producing 1,692 programs. Of these, we found approximately 40% to be vulnerable.
Abstract（参考訳）: コンピュータコードを自動的に生成するツールを含む、人間がコンピュータシステムの設計を支援するAIベースのシステムを設計することへの関心は急速に高まっている。最も有名なのは、オープンソースのGitHubコードでトレーニングされた言語モデルである、最初の自己記述型の‘AIペアプログラマ’であるGitHub Copilotである。しかし、コードにはしばしばバグが含まれているため、Copilotが処理した大量の未検証コードを考えると、言語モデルが悪用可能なバグのあるコードから学べることは確かです。これにより、copilotのコードコントリビュートに対するセキュリティの懸念が高まる。本研究では,GitHub Copilotがセキュアでないコードを推奨する原因となる状況と状況について,体系的に調査する。この分析を実行するために、copilotにハイリスクcweに関連するシナリオでコードを生成するように促します。 MITREの"Top 25"リストから引用)。弱点の多様性、プロンプトの多様性、ドメインの多様性を考慮して、3つの異なるコード生成軸でcopilotのパフォーマンスを調べます。総じて、Copilotが完成するための89のシナリオを生成し、1,692のプログラムを生成します。これらのうち、約40%が脆弱であることが分かりました。

関連論文リスト

Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [66.1850490474361]
コーディングエージェントとの開発者インタラクションを探求する最初の学術的研究を行う。私たちは、GitHub CopilotとOpenHandsの2つの主要なコピロとエージェントコーディングアシスタントを評価します。この結果から、エージェントは、コピロトを超越した方法で開発者を支援する可能性を示唆している。
論文参考訳（メタデータ） (2025-07-10T20:12:54Z)
RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。 RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。 RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文参考訳（メタデータ） (2024-11-12T13:30:06Z)
GitHub Copilot: the perfect Code compLeeter? [3.708656266586145]
本稿では,GitHub Copilotが生成するコード品質をLeetCode問題セットに基づいて評価することを目的とする。我々は、コード生成段階でのCopilotの信頼性、生成したコードの正確性、およびプログラミング言語への依存性を評価する。
論文参考訳（メタデータ） (2024-06-17T08:38:29Z)
Exploring the Effect of Multiple Natural Languages on Code Suggestion Using GitHub Copilot [46.822148186169144]
GitHub Copilotは、プログラム合成を自動化するAI対応ツールである。最近の研究では、様々なプログラミングタスクにおけるCopilotの能力について広く研究されている。しかし、異なる自然言語がコード提案に与える影響についてはほとんど分かっていない。
論文参考訳（メタデータ） (2024-02-02T14:30:02Z)
Exploring the Problems, their Causes and Solutions of AI Pair Programming: A Study on GitHub and Stack Overflow [6.724815667295355]
AIプログラマペアであるGitHub Copilotは、コードスニペットの大規模なコーパスでトレーニングされた機械学習モデルを使用して、コード提案を生成する。ソフトウェア開発で人気があるにもかかわらず、Copilotと仕事をする実践者の実際の経験に関する実証的な証拠は限られている。 473のGitHubイシュー、706のGitHubディスカッション、142のStack Overflowポストからデータを収集しました。
論文参考訳（メタデータ） (2023-11-02T06:24:38Z)
Security Weaknesses of Copilot Generated Code in GitHub [8.364612094301071]
GitHub Copilotが生成したコードスニペットをGitHubプロジェクトから分析します。分析の結果,Copilotが生成した452個のスニペットが検出された。また、実践者は、対応するセキュリティ意識とスキルを育む必要があることも示している。
論文参考訳（メタデータ） (2023-10-03T14:01:28Z)
Demystifying Practices, Challenges and Expected Features of Using GitHub Copilot [3.655281304961642]
Stack Overflow(SO)とGitHubの議論からデータを収集し分析することで、実証的研究を行った。私たちは、Copilotで使用されるプログラミング言語、技術、実装された関数、利点、制限、そしてCopilotを使用する際の課題を特定しました。以上の結果から,Copilotの使用は二重刃の剣のようなもので,使用するかどうかを判断する際には,さまざまな側面を慎重に検討する必要があることが示唆された。
論文参考訳（メタデータ） (2023-09-11T16:39:37Z)
Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文参考訳（メタデータ） (2023-02-14T18:43:34Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
Conversing with Copilot: Exploring Prompt Engineering for Solving CS1 Problems Using Natural Language [3.155277175705079]
GitHub Copilotは、自然言語の問題記述からソースコードを自動的に生成する人工知能モデルである。 2022年6月以降、CopilotはVisual Studio Codeのような開発環境へのプラグインとして、学生全員に無料で提供されるようになった。
論文参考訳（メタデータ） (2022-10-27T03:48:24Z)
Level 2 Autonomous Driving on a Single Device: Diving into the Devils of Openpilot [112.21008828205409]
Comma.aiは、1台のカメラとボードを内蔵した999ドルのアフターマーケットデバイスがL2シナリオを処理する能力を持っていると主張している。 Comma.aiがリリースした全システムのオープンソースソフトウェアとともに、プロジェクトはOpenpilotと名付けられた。このレポートでは、最新の知見を公開し、産業製品レベルでのエンドツーエンドの自動運転という、新たな視点について光を当てたいと思います。
論文参考訳（メタデータ） (2022-06-16T13:43:52Z)
Is GitHub's Copilot as Bad as Humans at Introducing Vulnerabilities in Code? [12.350130201627186]
セキュリティの観点から,Copilot生成したコードの比較実験解析を行った。われわれは、Copilotが人間の開発者と同じソフトウェア脆弱性をもたらす可能性が高いかどうかを調査する。
論文参考訳（メタデータ） (2022-04-10T18:32:04Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。