論文の概要: Do Not Give Away My Secrets: Uncovering the Privacy Issue of Neural Code Completion Tools
- arxiv url: http://arxiv.org/abs/2309.07639v1
- Date: Thu, 14 Sep 2023 12:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 04:50:57.961576
- Title: Do Not Give Away My Secrets: Uncovering the Privacy Issue of Neural Code Completion Tools
- Title(参考訳): 秘密を忘れるな - ニューラルコード補完ツールのプライバシー問題を明らかにする
- Authors: Yizhan Huang, Yichen Li, Weibin Wu, Jianping Zhang, Michael R. Lyu,
- Abstract要約: 言語モデルは適切なプロンプトで推論中に冗長なトレーニングデータを出力することができる。
このプロパティは、ハードコードされたクレデンシャルリークに関する商業NCCTのプライバシー上の懸念を提起する。
本稿では, NCCTが必然的にハードコードされたクレデンシャルを出力するかどうかを問うために, HCR (Hard-coded Credential Revealer) を提案する。
- 参考スコア(独自算出の注目度): 37.42609090632121
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Neural Code Completion Tools (NCCTs) have reshaped the field of software development, which accurately suggest contextually-relevant code snippets benefiting from language modeling techniques. However, language models may emit the training data verbatim during inference with appropriate prompts. This memorization property raises privacy concerns of commercial NCCTs about the hard-coded credential leakage, leading to unauthorized access to systems. Therefore, to answer whether NCCTs will inadvertently emit the hard-coded credential, we propose an evaluation tool called Hard-coded Credential Revealer (HCR). HCR effectively constructs test prompts from GitHub code files with credentials to trigger memorization phenomenon of commercial NCCTs. Then, HCR extracts credentials with pre-defined format from the responses by four designed filters. We apply HCR to evaluate two representative commercial NCCTs: GitHub Copilot and Amazon CodeWhisperer and successfully extracted 2,702 hard-coded credentials from Copilot and 129 secrets from CodeWhisper under the black-box setting, among which at least 3.6% and 5.4% secrets are real strings from GitHub repositories. Moreover, two operational credentials were identified. The experimental results raise the severe privacy concern of the potential leakage of hard-coded credentials in the training data of commercial NCCTs.
- Abstract(参考訳): ニューラルコード補完ツール(NCCT)は、言語モデリング技術から恩恵を受けるコンテキスト関連コードスニペットを正確に提案するソフトウェア開発の分野を変革した。
しかし、言語モデルは適切なプロンプトで推論中に冗長なトレーニングデータを出力することができる。
この記憶特性は、ハードコードされたクレデンシャルリークに関する商業NCCTのプライバシー上の懸念を高め、システムへの不正アクセスにつながる。
したがって、NCCTが必然的にハードコードされたクレデンシャルを出力するかどうかを問うために、ハードコードCredential Revealer (HCR) と呼ばれる評価ツールを提案する。
HCRはGitHubのコードファイルからテストプロンプトを効果的に構築し、商用NCCTの暗記現象をトリガーする。
そして、HCRは、4つの設計されたフィルタにより、応答から予め定義されたフォーマットで認証情報を抽出する。
GitHub CopilotとAmazon CodeWhispererの2つの代表的な商用NCCTを評価するためにHCRを適用し、Copilotから2,702のハードコード認証を抽出し、ブラックボックス設定でCodeWhisperから129のシークレットを抽出しました。
さらに、2つの運用証明書が特定された。
実験の結果、商業NCCTのトレーニングデータにハードコードされた認証情報が漏洩する可能性があるという深刻なプライバシー上の懸念が浮き彫りになった。
関連論文リスト
- FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
FoC-BinLLMは、ROUGE-LスコアでChatGPTを14.61%上回った。
FoC-Simは52%高いRecall@1で過去のベストメソッドを上回っている。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - Trained Without My Consent: Detecting Code Inclusion In Language Models
Trained on Code [14.763505073094779]
コード監査は、開発済みのコードが標準、規制、著作権保護に準拠していることを保証する。
ソフトウェア開発プロセスにおけるコーディングアシスタントとしての最近のLarge Language Models(LLM)の出現は、コード監査に新たな課題をもたらしている。
LLMのトレーニングデータセットにコードを含むことを検出するモデルに依存しない、解釈可能な方法であるTraWiCを提案する。
論文 参考訳(メタデータ) (2024-02-14T16:41:35Z) - Code Membership Inference for Detecting Unauthorized Data Use in Code
Pre-trained Language Models [7.6875396255520405]
本稿では,CPLMにおける不正コードの使用を検出するための最初の研究を開始する。
我々は、コードメンバーシップ推論タスクの異なる設定のためのフレームワークBuzzerを設計する。
論文 参考訳(メタデータ) (2023-12-12T12:07:54Z) - How to get better embeddings with code pre-trained models? An empirical
study [6.220333404184779]
下流分類タスクの埋め込みを生成するために,5つの異なるコード事前訓練モデル(PTM)について検討する。
特別なトークンによって得られた埋め込みは、コードスニペット全体の意味情報を十分に集約していないことが分かりました。
PTMの事前学習と同様、コードデータとテキストデータをマージして得られるコード埋め込みの品質は低く、よりリッチなセマンティック情報を保証できない。
論文 参考訳(メタデータ) (2023-11-14T10:44:21Z) - Blind Evaluation Framework for Fully Homomorphic Encryption and Privacy-Preserving Machine Learning [0.0]
Blind Evaluation Framework (BEF) は暗号的にセキュアなプログラミングフレームワークである。
条件式を評価することなく、暗号化空間における制御構造の実行を可能にする。
論文 参考訳(メタデータ) (2023-10-19T20:33:02Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - CodeT5: Identifier-aware Unified Pre-trained Encoder-Decoder Models for
Code Understanding and Generation [36.47905744758698]
我々は、開発者が指定した識別子から伝達されるコードセマンティクスをよりよく活用する、事前訓練されたエンコーダ-デコーダ変換モデルであるCodeT5を提案する。
我々のモデルは、コード理解と生成タスクの両方をシームレスにサポートし、マルチタスク学習を可能にする統一的なフレームワークを採用している。
論文 参考訳(メタデータ) (2021-09-02T12:21:06Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z) - Incorporating External Knowledge through Pre-training for Natural
Language to Code Generation [97.97049697457425]
オープンドメインコード生成は、自然言語(NL)の意図から汎用プログラミング言語でコードを生成することを目的としている。
オンラインプログラミングQAフォーラムStackOverflowとプログラミング言語APIドキュメントからNL-codeペアを自動的にマイニングする。
評価の結果,2つのソースとデータ拡張と検索ベースデータ再サンプリングを組み合わせることで,コード生成テストベッドCoNaLa上でのBLEUスコアが最大2.2%向上することがわかった。
論文 参考訳(メタデータ) (2020-04-20T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。