論文の概要: CoProtector: Protect Open-Source Code against Unauthorized Training
Usage with Data Poisoning
- arxiv url: http://arxiv.org/abs/2110.12925v1
- Date: Mon, 25 Oct 2021 13:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 21:40:53.902377
- Title: CoProtector: Protect Open-Source Code against Unauthorized Training
Usage with Data Poisoning
- Title(参考訳): CoProtector: データポリシによる無許可トレーニング使用に対するオープンソースコード保護
- Authors: Zhensu Sun, Xiaoning Du, Fu Song, Mingze Ni, Li Li
- Abstract要約: 数十億行の公開コードに基づいてトレーニングされたGithub Copilotが、先日、コンピュータサイエンス研究と実践コミュニティのバズワードになった。
我々は、ディープラーニングモデルによって悪用されるのを防ぐために、オープンソースのコードを保護する効果的なメカニズムを発明する必要があると論じている。
私たちの大規模な実験は、CoProtectorがその目的を達成するのに効果的であることを実証的に示しています。
- 参考スコア(独自算出の注目度): 9.676320239717073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Github Copilot, trained on billions of lines of public code, has recently
become the buzzword in the computer science research and practice community.
Although it is designed to provide powerful intelligence to help developers
implement safe and effective code, practitioners and researchers raise concerns
about its ethical and security problems, e.g., should the copyleft licensed
code be freely leveraged or insecure code be considered for training in the
first place? These problems pose a significant impact on Copilot and other
similar products that aim to learn knowledge from large-scale source code
through deep learning models, which are inevitably on the rise with the fast
development of artificial intelligence. To mitigate such impacts, we argue that
there is a need to invent effective mechanisms for protecting open-source code
from being exploited by deep learning models. To this end, we design and
implement a prototype, CoProtector, which utilizes data poisoning techniques to
arm source code repositories for defending against such exploits. Our
large-scale experiments empirically show that CoProtector is effective in
achieving its purpose, significantly reducing the performance of Copilot-like
deep learning models while being able to stably reveal the secretly embedded
watermark backdoors.
- Abstract(参考訳): 数十億行の公開コードをトレーニングしたGithub Copilotが、最近、コンピュータサイエンスの研究と実践コミュニティのバズワードになった。
開発者が安全で効果的なコードを実装するための強力なインテリジェンスを提供するように設計されているが、実践者や研究者は、倫理的およびセキュリティ上の問題に対する懸念を提起している。
これらの問題は、人工知能の急速な発展に必然的に伴うディープラーニングモデルを通じて、大規模なソースコードから知識を学ぶことを目的とした、Copilotや他の類似製品に重大な影響を与える。
このような影響を緩和するためには、ディープラーニングモデルがオープンソースコードを保護するための効果的なメカニズムを発明する必要があると論じる。
そこで我々は,このエクスプロイトを防御するために,armソースコードリポジトリにデータ中毒技術を利用するプロトタイプであるcoprotectorを設計し,実装する。
大規模実験の結果,CoProtectorはCopilotのような深層学習モデルの性能を著しく低減し,秘密に埋め込まれた透かしバックドアを安定的に明らかにすることができることがわかった。
関連論文リスト
- RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。
RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。
RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文 参考訳(メタデータ) (2024-11-12T13:30:06Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval [20.959848710829878]
大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらした。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。
我々は,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。
論文 参考訳(メタデータ) (2024-07-02T16:13:21Z) - Causative Insights into Open Source Software Security using Large
Language Code Embeddings and Semantic Vulnerability Graph [3.623199159688412]
オープンソースソフトウェア(OSS)の脆弱性は、不正アクセス、データ漏洩、ネットワーク障害、プライバシー侵害を引き起こす可能性がある。
最近のディープラーニング技術は、ソースコードの脆弱性を特定し、ローカライズする上で大きな可能性を示しています。
本研究は,従来の方法に比べてコード修復能力が24%向上したことを示す。
論文 参考訳(メタデータ) (2024-01-13T10:33:22Z) - LLM-Powered Code Vulnerability Repair with Reinforcement Learning and
Semantic Reward [3.729516018513228]
我々は,大規模な言語モデルであるCodeGen2を利用した多目的コード脆弱性解析システム texttSecRepair を導入する。
そこで本研究では,LLMを用いた脆弱性解析に適した命令ベースデータセットを提案する。
GitHub上の6つのオープンソースIoTオペレーティングシステムにおいて、ゼロデイとNデイの脆弱性を特定します。
論文 参考訳(メタデータ) (2024-01-07T02:46:39Z) - Assessing the Security of GitHub Copilot Generated Code -- A Targeted
Replication Study [11.644996472213611]
最近の研究は、GitHub CopilotやAmazon CodeWhispererといったAIによるコード生成ツールのセキュリティ問題を調査している。
本稿では、コパイロットのセキュリティの弱点を調査し、コパイロットが提案するコードにいくつかの弱点を発見したPearce et al.の研究を再現する。
我々の結果は、新しいバージョンのCopilotが改良されても、脆弱性のあるコード提案の割合が36.54%から27.25%に減少していることを示している。
論文 参考訳(メタデータ) (2023-11-18T22:12:59Z) - Enhancing Large Language Models for Secure Code Generation: A
Dataset-driven Study on Vulnerability Mitigation [24.668682498171776]
大規模言語モデル(LLM)はコード生成に大きな進歩をもたらし、初心者と経験豊富な開発者の両方に恩恵を与えている。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を不注意に伝播するリスクをもたらす。
本稿では,ソフトウェアセキュリティの観点からのLLMの評価と拡張に焦点をあてた総合的研究について述べる。
論文 参考訳(メタデータ) (2023-10-25T00:32:56Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks,
and Defenses [150.64470864162556]
この作業は体系的に分類され、幅広いデータセット脆弱性とエクスプロイトを議論する。
様々な毒とバックドアの脅威モデルとそれらの関係を記述することに加えて,それらの統一分類法を展開する。
論文 参考訳(メタデータ) (2020-12-18T22:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。