論文の概要: Your Code Secret Belongs to Me: Neural Code Completion Tools Can Memorize Hard-Coded Credentials
- arxiv url: http://arxiv.org/abs/2309.07639v2
- Date: Mon, 20 May 2024 12:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 00:30:29.371156
- Title: Your Code Secret Belongs to Me: Neural Code Completion Tools Can Memorize Hard-Coded Credentials
- Title(参考訳): コード秘密:ニューラルネットワークの補完ツールがハードコードクレジットカードを記憶できる
- Authors: Yizhan Huang, Yichen Li, Weibin Wu, Jianping Zhang, Michael R. Lyu,
- Abstract要約: 本稿では,HCR(Hard-coded Credential Revealer)と呼ばれる評価ツールを提案する。
HCRはGitHubのコードファイルに基づいてテストプロンプトを構築し、NCCTの記憶現象を明らかにする。
その結果、NCCTはトレーニングデータの正確な部分を返すだけでなく、必然的に追加の秘密文字列をリークできることがわかった。
- 参考スコア(独自算出の注目度): 37.42609090632121
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Neural Code Completion Tools (NCCTs) have reshaped the field of software engineering, which are built upon the language modeling technique and can accurately suggest contextually relevant code snippets. However, language models may emit the training data verbatim during inference with appropriate prompts. This memorization property raises privacy concerns of NCCTs about hard-coded credential leakage, leading to unauthorized access to applications, systems, or networks. Therefore, to answer whether NCCTs will emit the hard-coded credential, we propose an evaluation tool called Hard-coded Credential Revealer (HCR). HCR constructs test prompts based on GitHub code files with credentials to reveal the memorization phenomenon of NCCTs. Then, HCR designs four filters to filter out ill-formatted credentials. Finally, HCR directly checks the validity of a set of non-sensitive credentials. We apply HCR to evaluate three representative types of NCCTs: Commercial NCCTs, open-source models, and chatbots with code completion capability. Our experimental results show that NCCTs can not only return the precise piece of their training data but also inadvertently leak additional secret strings. Notably, two valid credentials were identified during our experiments. Therefore, HCR raises a severe privacy concern about the potential leakage of hard-coded credentials in the training data of commercial NCCTs. All artifacts and data are released for future research purposes in https://github.com/HCR-Repo/HCR.
- Abstract(参考訳): ニューラルコード補完ツール(NCCT)は、言語モデリング技術に基づいて構築され、文脈に関連のあるコードスニペットを正確に提案できるソフトウェア工学の分野を再構築した。
しかし、言語モデルは適切なプロンプトで推論中に冗長なトレーニングデータを出力することができる。
この記憶特性は、ハードコードされたクレデンシャルリークに関するNCCTのプライバシー上の懸念を高め、アプリケーション、システム、ネットワークへの不正アクセスを引き起こす。
したがって、NCCTがハードコードされたクレデンシャルを出力するかどうかを問うために、ハードコードCredential Revealer (HCR) と呼ばれる評価ツールを提案する。
HCRはGitHubのコードファイルに基づいてテストプロンプトを構築し、NCCTの記憶現象を明らかにする。
そして、HCRは不正な認証情報をフィルタする4つのフィルタを設計する。
最後に、HCRは、一連の非機密認証の妥当性を直接チェックする。
商用NCCT,オープンソースモデル,コード補完機能を備えたチャットボットの3種類のNCCTの評価にHCRを適用した。
実験の結果,NCCTはトレーニングデータの正確な部分を返すだけでなく,必然的に追加の秘密文字列を漏洩させることができることがわかった。
特に,実験中に2つの有効な認証情報が確認された。
したがって、HCRは、商用NCCTのトレーニングデータにハードコードされた認証情報が漏洩する可能性があるという深刻なプライバシー上の懸念を提起する。
すべてのアーティファクトとデータは、将来の研究目的のためにhttps://github.com/HCR-Repo/HCRでリリースされる。
関連論文リスト
- SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition [77.28814034644287]
CTCモデルであるSVTRv2を提案する。
SVTRv2は、テキストの不規則性に対処し、言語コンテキストを利用するための新しいアップグレードを導入した。
我々は,SVTRv2を標準ベンチマークと最近のベンチマークの両方で評価した。
論文 参考訳(メタデータ) (2024-11-24T14:21:35Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - Trained Without My Consent: Detecting Code Inclusion In Language Models Trained on Code [13.135962181354465]
コード監査は、開発済みのコードが標準、規制、著作権保護に準拠していることを保証する。
ソフトウェア開発プロセスにおけるコーディングアシスタントとしての最近のLarge Language Models(LLM)の出現は、コード監査に新たな課題をもたらしている。
LLMのトレーニングデータセットにコードを含むことを検出するモデルに依存しない、解釈可能な方法であるTraWiCを提案する。
論文 参考訳(メタデータ) (2024-02-14T16:41:35Z) - Deductive Closure Training of Language Models for Coherence, Accuracy, and Updatability [58.582216812183496]
言語モデル(LM)は、実際に正しいテキストを生成し、個々のクレームの真理値を推定することがある。
現在のLMは誤った内容や非意味な内容を生成しており、編集や更新は困難である。
本稿では,DCT(Deductive Closure Training)と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T18:58:37Z) - Learning from Flawed Data: Weakly Supervised Automatic Speech
Recognition [30.544499309503863]
自動音声認識(ASR)システムの訓練には、大量の精度の高いペアデータが必要である。
人間のアノテーションは通常 "non-verbatim" の転写を行います。
オムニ時間分類(Omni-temporal Classification,OTC)は,ラベルの不確かさを明確に組み込んだ訓練基準である。
論文 参考訳(メタデータ) (2023-09-26T12:58:40Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - HCR-Net: A deep learning based script independent handwritten character
recognition network [5.8067395321424975]
手書き文字認識(HCR)は、数十年の研究にもかかわらず、困難なパターン認識問題である。
我々は、HCR研究のためのスクリプト独立型ディープラーニングネットワーク、HCR-Netを提案し、この分野の新たな研究方向性を定めている。
論文 参考訳(メタデータ) (2021-08-15T05:48:07Z) - InferCode: Self-Supervised Learning of Code Representations by
Predicting Subtrees [17.461451218469062]
本稿では,自己言語学習機構をソースコードモデルに適用することにより,制限を克服するinfercodeを提案する。
ASTのサブツリーは、人間のラベル付けや高価なグラフ構築のオーバーヘッドなしにコード表現をトレーニングするためのラベルとして、InferCodeで扱われる。
Code2Vec、Code2Seq、ASTNNなど、同じ下流タスクに適用される以前のコード学習技術と比較して、事前に訓練されたInferCodeモデルを使用して、より高いパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-12-13T10:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。