論文の概要: Protecting Private Code in IDE Autocomplete using Differential Privacy
- arxiv url: http://arxiv.org/abs/2601.22935v1
- Date: Fri, 30 Jan 2026 12:51:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.44905
- Title: Protecting Private Code in IDE Autocomplete using Differential Privacy
- Title(参考訳): 差別化プライバシを使用したIDEの自動補完におけるプライベートコード保護
- Authors: Evgeny Grigorenko, David Stanojević, David Ilić, Egor Bogomolov, Kostadin Cvejoski,
- Abstract要約: 本稿では,Large Language Models (LLMs) をトレーニングするための堅牢な防御機構として,差分プライバシー(DP)の利用について検討する。
DPを用いてttexttMellumモデルを微調整し、そのプライバシーと実用性を総合的に評価する。
以上の結果から,DPはメンバシップ推論攻撃(MIA)に対して強い防御力を示し,ランダムな推測(AUC 0.901 から 0.606 まで)に近い攻撃成功率の低下を図った。
- 参考スコア(独自算出の注目度): 4.963509029377068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Integrated Development Environments (IDEs) increasingly leverage Large Language Models (LLMs) to provide advanced features like code autocomplete. While powerful, training these models on user-written code introduces significant privacy risks, making the models themselves a new type of data vulnerability. Malicious actors can exploit this by launching attacks to reconstruct sensitive training data or infer whether a specific code snippet was used for training. This paper investigates the use of Differential Privacy (DP) as a robust defense mechanism for training an LLM for Kotlin code completion. We fine-tune a \texttt{Mellum} model using DP and conduct a comprehensive evaluation of its privacy and utility. Our results demonstrate that DP provides a strong defense against Membership Inference Attacks (MIAs), reducing the attack's success rate close to a random guess (AUC from 0.901 to 0.606). Furthermore, we show that this privacy guarantee comes at a minimal cost to model performance, with the DP-trained model achieving utility scores comparable to its non-private counterpart, even when trained on 100x less data. Our findings suggest that DP is a practical and effective solution for building private and trustworthy AI-powered IDE features.
- Abstract(参考訳): 現代の統合開発環境(IDE)は、コードオートコンプリートのような高度な機能を提供するために、大規模言語モデル(LLM)をますます活用しています。
強力な一方で、これらのモデルをユーザ記述コードでトレーニングすることは、プライバシの重大なリスクをもたらし、モデル自体が新たなタイプのデータ脆弱性になる。
悪意のあるアクターは、機密性の高いトレーニングデータを再構築する攻撃を起動したり、特定のコードスニペットがトレーニングに使用されたかどうかを推測することで、これを活用できる。
本稿では、Kotlinコード補完のためのLLMをトレーニングするための堅牢な防御メカニズムとして、差分プライバシー(DP)の使用について検討する。
DP を用いて \texttt{Mellum} モデルを微調整し、そのプライバシーと実用性を包括的に評価する。
以上の結果から,DPはメンバシップ推論攻撃(MIA)に対して強い防御力を示し,ランダムな推測(AUC 0.901 から 0.606 まで)に近い攻撃成功率の低下を図った。
さらに、このプライバシ保証は、100倍少ないデータでトレーニングされた場合であっても、DPトレーニングされたモデルが、その非プライベートなモデルと同等のユーティリティスコアを達成するため、パフォーマンスをモデル化するための最小のコストで得られることを示す。
この結果から,DPは,プライベートかつ信頼性の高いAI駆動IDE機能を構築するための,実用的で効果的なソリューションであることが示唆された。
関連論文リスト
- Towards Privacy-Preserving Code Generation: Differentially Private Code Language Models [2.4216414826638353]
本研究は,CodeLLMにおける差分プライバシー(DP)の有効性を体系的に評価する。
DPはテストされたすべてのスニペットタイプにわたるCodeLLMのメモリ化を大幅に削減する。
DPは難易度をわずかに向上させるが、CodeLLMsのコード生成機能も強化できる。
論文 参考訳(メタデータ) (2025-12-12T11:31:13Z) - Machine Learning with Privacy for Protected Attributes [56.44253915927481]
差分プライバシー(DP)の定義を洗練し、機能差分プライバシー(FDP)と呼ばれるより汎用的で柔軟なフレームワークを作成する。
私たちの定義はシミュレーションに基づいており、プライバシの追加/削除と置き換えの両方が可能で、保護された機能と非保護された機能の任意の分離を処理できます。
各種機械学習タスクにフレームワークを適用し,パブリック機能が利用可能であればDP学習モデルの実用性を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2025-06-24T17:53:28Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Closed-Form Bounds for DP-SGD against Record-level Inference [18.85865832127335]
我々はDP-SGDアルゴリズムに焦点をあて、単純な閉形式境界を導出する。
我々は、最先端技術にマッチする会員推定のバウンダリを得る。
属性推論に対する新しいデータ依存型バウンダリを提案する。
論文 参考訳(メタデータ) (2024-02-22T09:26:16Z) - Diffence: Fencing Membership Privacy With Diffusion Models [19.682186550192856]
ディープラーニングモデルは、メンバーシップ推論攻撃(MIA)に対して脆弱である
生成モデルを活用することでMIAに対する新たな防御フレームワークを導入する。
当社の防衛はDIFFENCEと呼ばれ、事前推論を行います。
論文 参考訳(メタデータ) (2023-12-07T20:45:09Z) - When approximate design for fast homomorphic computation provides
differential privacy guarantees [0.08399688944263842]
差分プライバシー(DP)と暗号プリミティブは、プライバシー攻撃に対する一般的な対策である。
本稿では,argmax演算子に対する確率近似アルゴリズム ShiELD を設計する。
たとえShielDが他のアプリケーションを持つことができたとしても、私たちは1つの設定に集中し、SPEEDコラボレーティブトレーニングフレームワークにシームレスに統合します。
論文 参考訳(メタデータ) (2023-04-06T09:38:01Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - Large Scale Transfer Learning for Differentially Private Image
Classification [51.10365553035979]
Differential Privacy(DP)は、個別のサンプルレベルのプライバシで機械学習モデルをトレーニングするための正式なフレームワークを提供する。
DP-SGDを用いたプライベートトレーニングは、個々のサンプル勾配にノイズを注入することで漏れを防ぐ。
この結果は非常に魅力的であるが,DP-SGDを用いた大規模モデルのトレーニングの計算コストは,非プライベートトレーニングよりもかなり高い。
論文 参考訳(メタデータ) (2022-05-06T01:22:20Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。