論文の概要: Towards Privacy-Preserving Code Generation: Differentially Private Code Language Models
- arxiv url: http://arxiv.org/abs/2512.11482v1
- Date: Fri, 12 Dec 2025 11:31:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.747188
- Title: Towards Privacy-Preserving Code Generation: Differentially Private Code Language Models
- Title(参考訳): プライバシ保護のためのコード生成 - 異なるプライベートコード言語モデル
- Authors: Melih Catal, Pooja Rani, Harald C. Gall,
- Abstract要約: 本研究は,CodeLLMにおける差分プライバシー(DP)の有効性を体系的に評価する。
DPはテストされたすべてのスニペットタイプにわたるCodeLLMのメモリ化を大幅に削減する。
DPは難易度をわずかに向上させるが、CodeLLMsのコード生成機能も強化できる。
- 参考スコア(独自算出の注目度): 2.4216414826638353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models specialized for code (CodeLLMs) have demonstrated remarkable capabilities in generating code snippets, documentation, and test cases. However, despite their promising capabilities, CodeLLMs can inadvertently memorize and reproduce snippets from their training data, which poses risks of privacy breaches and intellectual property violations. These risks restrict the deployment of CodeLLMs in sensitive domains and limit their training datasets to publicly available sources. To mitigate the memorization risk without compromising their task performance, we apply Differential Privacy (DP) to CodeLLMs. To the best of our knowledge, this is the first comprehensive study that systematically evaluates the effectiveness of DP in CodeLLMs. DP adds calibrated noise to the training process to protect individual data points while still allowing the model to learn useful patterns. To this end, we first identify and understand the driving reasons of the memorization behaviour of the CodeLLMs during their fine-tuning. Then, to address this issue, we empirically evaluate the effect of DP on mitigating memorization while preserving code generation capabilities. Our findings show that DP substantially reduces memorization in CodeLLMs across all the tested snippet types. The snippet types most prone to memorization are also the most effectively mitigated by DP. Furthermore, we observe that DP slightly increases perplexity but preserves, and can even enhance, the code generation capabilities of CodeLLMs, which makes it feasible to apply DP in practice without significantly compromising model utility. Finally, we analyze the impact of DP on training efficiency and energy consumption, finding that DP does not significantly affect training time or energy usage, making it a practical choice for privacy-preserving CodeLLMs training.
- Abstract(参考訳): コード(CodeLLMs)に特化した大規模な言語モデルは、コードスニペット、ドキュメント、テストケースを生成する際、顕著な機能を示している。
しかし、その有望な機能にもかかわらず、CodeLLMはトレーニングデータのスニペットを不注意に記憶し、再生することができるため、プライバシ侵害や知的財産権侵害のリスクが生じる。
これらのリスクは、機密ドメインへのCodeLLMのデプロイを制限し、トレーニングデータセットを公開ソースに制限する。
タスク性能を損なうことなく記憶リスクを軽減するため,コードLLMに差分プライバシー(DP)を適用した。
われわれの知る限りでは,CodeLLMにおけるDPの有効性を体系的に評価した初めての総合的研究である。
DPはトレーニングプロセスに校正ノイズを加え、個々のデータポイントを保護すると同時に、モデルが有用なパターンを学習できるようにする。
この目的のために,我々はまず,CodeLLMの微調整時の記憶動作の動機を同定し,理解する。
そこで,この問題に対処するため,コード生成能力を保ちながら記憶の緩和効果を実証的に評価した。
以上の結果から,DPは全てのテストスニペットタイプにおいて,CodeLLMの記憶を著しく減少させることが明らかとなった。
最も記憶しやすいスニペットはDPにより最も効果的に緩和される。
さらに,DPはパープレキシティをわずかに向上させるが,コードLLMのコード生成能力も向上し,モデルの有用性を著しく損なうことなく,実際にDPを適用することが可能となる。
最後に、DPがトレーニング効率とエネルギー消費に与える影響を分析し、DPがトレーニング時間やエネルギー使用量に大きな影響を与えていないことを発見し、プライバシ保護のCodeLLMsトレーニングの実践的選択となる。
関連論文リスト
- Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning [50.45435841411193]
Code Language Models (CLMs)は、機密性のあるトレーニングデータの意図しない記憶を示し、具体的に指示された場合に機密情報の冗長な再現を可能にする。
CodeEraserは、コードの構造的整合性と機能的正当性を保ちながら、センシティブな記憶されたセグメントを選択的にコードに解放する高度な変種である。
論文 参考訳(メタデータ) (2025-09-17T07:12:35Z) - Memorize or Generalize? Evaluating LLM Code Generation with Code Rewriting [54.48306552577881]
大規模な言語モデル(LLM)は、主にメモリ化(トレーニングデータの大きな部分を複製または再利用する)と一般化(Generalization)を併用している、と我々は主張する。
既存の評価は、表面/構造的類似性を無視し、繰り返しコードの良質な再利用を有害なリコールと記憶タスクの正しさで混同する。
そこで我々は,2つの信号を組み合わせた正規化スコアである覚書リスク指標(MRI)を提案する。 (i) モデルが元の地平解とどのように類似しているか, (ii) 元のタスクから書き換えされたタスクにどの程度の性能が低下するか。
論文 参考訳(メタデータ) (2025-03-04T05:39:24Z) - DPZero: Private Fine-Tuning of Language Models without Backpropagation [49.365749361283704]
DPZeroは、ほぼ次元に依存しない新しいゼロオーダーアルゴリズムである。
DPZeroのメモリ効率は、いくつかの下流タスクでプライベートに微調整されたRoBERTaとOPTで実証される。
論文 参考訳(メタデータ) (2023-10-14T18:42:56Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - When approximate design for fast homomorphic computation provides
differential privacy guarantees [0.08399688944263842]
差分プライバシー(DP)と暗号プリミティブは、プライバシー攻撃に対する一般的な対策である。
本稿では,argmax演算子に対する確率近似アルゴリズム ShiELD を設計する。
たとえShielDが他のアプリケーションを持つことができたとしても、私たちは1つの設定に集中し、SPEEDコラボレーティブトレーニングフレームワークにシームレスに統合します。
論文 参考訳(メタデータ) (2023-04-06T09:38:01Z) - How to DP-fy ML: A Practical Guide to Machine Learning with Differential
Privacy [22.906644117887133]
差分プライバシー(DP)は、データ匿名化に関する公式声明を作成するための金の標準となっている。
DPの採用は、DP保護が持つもの、プライバシーが目的とするもの、そしてMLモデルの優れたプライバシ・ユーティリティ・コンピューティングトレードオフを達成することの難しさに関する限られた実践的なガイダンスによって妨げられている。
この研究は自己完結型のガイドであり、DP MLの分野を詳細に概観し、厳格なプライバシー保証を備えた最高のDP MLモデルを達成するための情報を提供する。
論文 参考訳(メタデータ) (2023-03-01T16:56:39Z) - Lifelong DP: Consistently Bounded Differential Privacy in Lifelong
Machine Learning [28.68587691924582]
新たなタスクを継続的に学習し,過去のタスクを記憶するプロセスは,未知のプライバシリスクと,プライバシ損失を拘束する課題をもたらすことを示す。
ライフロングDPの形式的定義を導入し、任意のタスクのトレーニングセットにデータを含めることが保護される。
我々はL2DP-MLと呼ばれるスケーラブルで異種なアルゴリズムを提案し、L2Mモデルの新バージョンを効率的に訓練し、継続する。
論文 参考訳(メタデータ) (2022-07-26T11:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。