Fugu-MT 論文翻訳(概要): Towards Privacy-Preserving Code Generation: Differentially Private Code Language Models

論文の概要: Towards Privacy-Preserving Code Generation: Differentially Private Code Language Models

arxiv url: http://arxiv.org/abs/2512.11482v1
Date: Fri, 12 Dec 2025 11:31:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-15 15:48:11.747188
Title: Towards Privacy-Preserving Code Generation: Differentially Private Code Language Models
Title（参考訳）: プライバシ保護のためのコード生成 - 異なるプライベートコード言語モデル
Authors: Melih Catal, Pooja Rani, Harald C. Gall,
Abstract要約: 本研究は,CodeLLMにおける差分プライバシー(DP)の有効性を体系的に評価する。 DPはテストされたすべてのスニペットタイプにわたるCodeLLMのメモリ化を大幅に削減する。 DPは難易度をわずかに向上させるが、CodeLLMsのコード生成機能も強化できる。
参考スコア（独自算出の注目度）: 2.4216414826638353
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models specialized for code (CodeLLMs) have demonstrated remarkable capabilities in generating code snippets, documentation, and test cases. However, despite their promising capabilities, CodeLLMs can inadvertently memorize and reproduce snippets from their training data, which poses risks of privacy breaches and intellectual property violations. These risks restrict the deployment of CodeLLMs in sensitive domains and limit their training datasets to publicly available sources. To mitigate the memorization risk without compromising their task performance, we apply Differential Privacy (DP) to CodeLLMs. To the best of our knowledge, this is the first comprehensive study that systematically evaluates the effectiveness of DP in CodeLLMs. DP adds calibrated noise to the training process to protect individual data points while still allowing the model to learn useful patterns. To this end, we first identify and understand the driving reasons of the memorization behaviour of the CodeLLMs during their fine-tuning. Then, to address this issue, we empirically evaluate the effect of DP on mitigating memorization while preserving code generation capabilities. Our findings show that DP substantially reduces memorization in CodeLLMs across all the tested snippet types. The snippet types most prone to memorization are also the most effectively mitigated by DP. Furthermore, we observe that DP slightly increases perplexity but preserves, and can even enhance, the code generation capabilities of CodeLLMs, which makes it feasible to apply DP in practice without significantly compromising model utility. Finally, we analyze the impact of DP on training efficiency and energy consumption, finding that DP does not significantly affect training time or energy usage, making it a practical choice for privacy-preserving CodeLLMs training.
Abstract（参考訳）: コード(CodeLLMs)に特化した大規模な言語モデルは、コードスニペット、ドキュメント、テストケースを生成する際、顕著な機能を示している。しかし、その有望な機能にもかかわらず、CodeLLMはトレーニングデータのスニペットを不注意に記憶し、再生することができるため、プライバシ侵害や知的財産権侵害のリスクが生じる。これらのリスクは、機密ドメインへのCodeLLMのデプロイを制限し、トレーニングデータセットを公開ソースに制限する。タスク性能を損なうことなく記憶リスクを軽減するため,コードLLMに差分プライバシー(DP)を適用した。われわれの知る限りでは,CodeLLMにおけるDPの有効性を体系的に評価した初めての総合的研究である。 DPはトレーニングプロセスに校正ノイズを加え、個々のデータポイントを保護すると同時に、モデルが有用なパターンを学習できるようにする。この目的のために,我々はまず,CodeLLMの微調整時の記憶動作の動機を同定し,理解する。そこで,この問題に対処するため,コード生成能力を保ちながら記憶の緩和効果を実証的に評価した。以上の結果から,DPは全てのテストスニペットタイプにおいて,CodeLLMの記憶を著しく減少させることが明らかとなった。最も記憶しやすいスニペットはDPにより最も効果的に緩和される。さらに,DPはパープレキシティをわずかに向上させるが,コードLLMのコード生成能力も向上し,モデルの有用性を著しく損なうことなく,実際にDPを適用することが可能となる。最後に、DPがトレーニング効率とエネルギー消費に与える影響を分析し、DPがトレーニング時間やエネルギー使用量に大きな影響を与えていないことを発見し、プライバシ保護のCodeLLMsトレーニングの実践的選択となる。

関連論文リスト

Protecting Private Code in IDE Autocomplete using Differential Privacy [4.963509029377068]
本稿では,Large Language Models (LLMs) をトレーニングするための堅牢な防御機構として,差分プライバシー(DP)の利用について検討する。 DPを用いてttexttMellumモデルを微調整し、そのプライバシーと実用性を総合的に評価する。以上の結果から,DPはメンバシップ推論攻撃(MIA)に対して強い防御力を示し,ランダムな推測(AUC 0.901 から 0.606 まで)に近い攻撃成功率の低下を図った。
論文参考訳（メタデータ） (2026-01-30T12:51:43Z)
Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning [50.45435841411193]
Code Language Models (CLMs)は、機密性のあるトレーニングデータの意図しない記憶を示し、具体的に指示された場合に機密情報の冗長な再現を可能にする。 CodeEraserは、コードの構造的整合性と機能的正当性を保ちながら、センシティブな記憶されたセグメントを選択的にコードに解放する高度な変種である。
論文参考訳（メタデータ） (2025-09-17T07:12:35Z)
Memorize or Generalize? Evaluating LLM Code Generation with Code Rewriting [54.48306552577881]
大規模な言語モデル(LLM)は、主にメモリ化(トレーニングデータの大きな部分を複製または再利用する)と一般化(Generalization)を併用している、と我々は主張する。既存の評価は、表面/構造的類似性を無視し、繰り返しコードの良質な再利用を有害なリコールと記憶タスクの正しさで混同する。そこで我々は,2つの信号を組み合わせた正規化スコアである覚書リスク指標(MRI)を提案する。 (i) モデルが元の地平解とどのように類似しているか, (ii) 元のタスクから書き換えされたタスクにどの程度の性能が低下するか。
論文参考訳（メタデータ） (2025-03-04T05:39:24Z)
Pre-training Differentially Private Models with Limited Public Data [54.943023722114134]
ディファレンシャルプライバシ(DP)は、モデルに提供されるセキュリティの度合いを測定するための重要な手法である。 DPはまだ、最初の事前訓練段階で使用されるデータのかなりの部分を保護することができない。公共データの10%しか利用しない新しいDP継続事前学習戦略を開発した。 ImageNet-21kのDP精度は41.5%、非DP精度は55.7%、下流タスクのPlaces365とiNaturalist-2021では60.0%である。
論文参考訳（メタデータ） (2024-02-28T23:26:27Z)
DPZero: Private Fine-Tuning of Language Models without Backpropagation [49.365749361283704]
DPZeroは、ほぼ次元に依存しない新しいゼロオーダーアルゴリズムである。 DPZeroのメモリ効率は、いくつかの下流タスクでプライベートに微調整されたRoBERTaとOPTで実証される。
論文参考訳（メタデータ） (2023-10-14T18:42:56Z)
Selectivity Drives Productivity: Efficient Dataset Pruning for Enhanced Transfer Learning [66.20311762506702]
データセットプルーニング(DP)は、データ効率を改善する効果的な方法として登場した。本稿では,ラベルマッピングと特徴マッピングという2つの新しいDP手法を提案する。ダウンストリーム性能を犠牲にすることなく、ソースデータクラスを最大40%まで刈り取ることができることを示す。
論文参考訳（メタデータ） (2023-10-13T00:07:49Z)
PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文参考訳（メタデータ） (2023-10-03T22:37:01Z)
When approximate design for fast homomorphic computation provides differential privacy guarantees [0.08399688944263842]
差分プライバシー(DP)と暗号プリミティブは、プライバシー攻撃に対する一般的な対策である。本稿では,argmax演算子に対する確率近似アルゴリズム ShiELD を設計する。たとえShielDが他のアプリケーションを持つことができたとしても、私たちは1つの設定に集中し、SPEEDコラボレーティブトレーニングフレームワークにシームレスに統合します。
論文参考訳（メタデータ） (2023-04-06T09:38:01Z)
How to DP-fy ML: A Practical Guide to Machine Learning with Differential Privacy [22.906644117887133]
差分プライバシー(DP)は、データ匿名化に関する公式声明を作成するための金の標準となっている。 DPの採用は、DP保護が持つもの、プライバシーが目的とするもの、そしてMLモデルの優れたプライバシ・ユーティリティ・コンピューティングトレードオフを達成することの難しさに関する限られた実践的なガイダンスによって妨げられている。この研究は自己完結型のガイドであり、DP MLの分野を詳細に概観し、厳格なプライバシー保証を備えた最高のDP MLモデルを達成するための情報を提供する。
論文参考訳（メタデータ） (2023-03-01T16:56:39Z)
Lifelong DP: Consistently Bounded Differential Privacy in Lifelong Machine Learning [28.68587691924582]
新たなタスクを継続的に学習し,過去のタスクを記憶するプロセスは,未知のプライバシリスクと,プライバシ損失を拘束する課題をもたらすことを示す。ライフロングDPの形式的定義を導入し、任意のタスクのトレーニングセットにデータを含めることが保護される。我々はL2DP-MLと呼ばれるスケーラブルで異種なアルゴリズムを提案し、L2Mモデルの新バージョンを効率的に訓練し、継続する。
論文参考訳（メタデータ） (2022-07-26T11:55:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。