論文の概要: Malicious and Unintentional Disclosure Risks in Large Language Models for Code Generation
- arxiv url: http://arxiv.org/abs/2503.22760v1
- Date: Thu, 27 Mar 2025 16:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:19.411512
- Title: Malicious and Unintentional Disclosure Risks in Large Language Models for Code Generation
- Title(参考訳): コード生成のための大規模言語モデルにおける悪意的・意図しない開示リスク
- Authors: Rafiqul Rabin, Sean McGregor, Nick Judd,
- Abstract要約: 本稿では、コード生成のために訓練された大言語モデル(LLM)が、トレーニングデータに含まれる機密情報を開示するコンテンツを生成するリスクについて検討する。
我々はこのリスクを、意図しない開示と悪意のある開示の2つのコンポーネントに分解する。
トレーニングデータセットとモデルの異なるリリース間で、意図しない、悪意のない開示リスクを並べて評価する方法を述べる。
- 参考スコア(独自算出の注目度): 2.94944680995069
- License:
- Abstract: This paper explores the risk that a large language model (LLM) trained for code generation on data mined from software repositories will generate content that discloses sensitive information included in its training data. We decompose this risk, known in the literature as ``unintended memorization,'' into two components: unintentional disclosure (where an LLM presents secrets to users without the user seeking them out) and malicious disclosure (where an LLM presents secrets to an attacker equipped with partial knowledge of the training data). We observe that while existing work mostly anticipates malicious disclosure, unintentional disclosure is also a concern. We describe methods to assess unintentional and malicious disclosure risks side-by-side across different releases of training datasets and models. We demonstrate these methods through an independent assessment of the Open Language Model (OLMo) family of models and its Dolma training datasets. Our results show, first, that changes in data source and processing are associated with substantial changes in unintended memorization risk; second, that the same set of operational changes may increase one risk while mitigating another; and, third, that the risk of disclosing sensitive information varies not only by prompt strategies or test datasets but also by the types of sensitive information. These contributions rely on data mining to enable greater privacy and security testing required for the LLM training data supply chain.
- Abstract(参考訳): 本稿では,ソフトウェアリポジトリから抽出したデータからコードを生成するために訓練された大規模言語モデル(LLM)が,トレーニングデータに含まれる機密情報を開示するコンテンツを生成するリスクについて検討する。
文献では「意図しない記憶」と呼ばれるこのリスクを、意図しない情報開示(LLMはユーザーが探さずにユーザに秘密を提示する)と悪意のある情報開示(LLMはトレーニングデータの部分的知識を持つ攻撃者に秘密を提示する)の2つのコンポーネントに分解する。
既存の研究は、主に悪意のある開示を期待するが、意図しない開示もまた問題である。
トレーニングデータセットとモデルの異なるリリース間で、意図しない、悪意のない開示リスクを並べて評価する方法を述べる。
我々は,これらの手法を,オープン言語モデル(OLMo)ファミリーとDolmaトレーニングデータセットを独立に評価することで実証する。
その結果、まず、データソースと処理の変化が意図しない記憶リスクの実質的な変化と関連していること、そして第2に、同じ運用変更が、他の変更を緩和しながら1つのリスクを増大させる可能性があること、そして第3に、機密情報を開示するリスクは、迅速な戦略やテストデータセットだけでなく、機密情報の種類によっても異なることが判明した。
これらのコントリビューションは、LLMトレーニングデータサプライチェーンに必要な、より高度なプライバシとセキュリティテストを可能にするために、データマイニングに依存している。
関連論文リスト
- Mitigating Sensitive Information Leakage in LLMs4Code through Machine Unlearning [5.974072640812041]
コードのためのLanguage Models for Code (LLMs4Code)は、コード生成タスクに優れており、巨大なソフトウェア開発の負担から開発者をリリースすることを約束している。
これらのモデルは、トレーニング中に埋め込まれた機密情報が漏洩する可能性があるため、重大なプライバシーリスクに悩まされていることが示されている。
マシンアンラーニングは、モデルが完全なリトレーニングなしにセンシティブな情報を“忘れる”ことによって、有望なソリューションとして浮上した。
論文 参考訳(メタデータ) (2025-02-09T01:50:34Z) - On the Privacy Risk of In-context Learning [36.633860818454984]
我々は、プロンプトモデルがプロンプト内で使用されるデータに対して、重大なプライバシーリスクを示すことを示した。
また、トリガーモデルのプライバシリスクが、同じユーティリティレベルで微調整されたモデルを超えることも観察します。
論文 参考訳(メタデータ) (2024-11-15T17:11:42Z) - Extracting Unlearned Information from LLMs with Activation Steering [46.16882599881247]
トレーニング後のモデルからセンシティブな知識を取り除くソリューションとして、アンラーニングが登場した。
本研究では,未学習モデルからの正確な情報検索手法として,アクティベーションステアリングを提案する。
その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
論文 参考訳(メタデータ) (2024-11-04T21:42:56Z) - Extracting Memorized Training Data via Decomposition [24.198975804570072]
本稿では,2つのフロンティア大言語モデルからニュース記事を抽出する,簡単なクエリベースの分解手法を示す。
73項目から少なくとも1文を抽出し,6項目から20%以上の動詞文を抽出した。
大規模に複製可能であれば、このトレーニングデータ抽出手法は、新たなLLMセキュリティと安全性の脆弱性を公開する可能性がある。
論文 参考訳(メタデータ) (2024-09-18T23:59:32Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - REVS: Unlearning Sensitive Information in Language Models via Rank Editing in the Vocabulary Space [35.61862064581971]
言語モデル(LM)は、トレーニングデータに見られる機密情報や個人識別可能な情報(PII)を不注意に記憶・拡散し、プライバシー上の懸念を引き起こすリスクがある。
LMから機密情報を学習する非段階的手法であるREVSを提案する。
論文 参考訳(メタデータ) (2024-06-13T17:02:32Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。