論文の概要: PrivCode: When Code Generation Meets Differential Privacy
- arxiv url: http://arxiv.org/abs/2512.05459v1
- Date: Fri, 05 Dec 2025 06:27:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.91998
- Title: PrivCode: When Code Generation Meets Differential Privacy
- Title(参考訳): PrivCode: コード生成が異なるプライバシに出会ったとき
- Authors: Zheng Liu, Chen Gong, Terry Yue Zhuo, Kecen Li, Weichen Yu, Matt Fredrikson, Tianhao Wang,
- Abstract要約: 異なるプライベートコード生成は、機密コードを保護する理論的保証を提供する。
PrivCodeは、コードデータセット用に特別に設計された最初のDPシンセサイザーである。
プライバシとユーティリティの両方を改善するための2段階のフレームワークが組み込まれている。
- 参考スコア(独自算出の注目度): 28.319022961888006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have presented outstanding performance in code generation and completion. However, fine-tuning these models on private datasets can raise privacy and proprietary concerns, such as the leakage of sensitive personal information. Differentially private (DP) code generation provides theoretical guarantees for protecting sensitive code by generating synthetic datasets that preserve statistical properties while reducing privacy leakage concerns. However, DP code generation faces significant challenges due to the strict syntactic dependencies and the privacy-utility trade-off. We propose PrivCode, the first DP synthesizer specifically designed for code datasets. It incorporates a two-stage framework to improve both privacy and utility. In the first stage, termed "privacy-sanitizing", PrivCode generates DP-compliant synthetic code by training models using DP-SGD while introducing syntactic information to preserve code structure. The second stage, termed "utility-boosting", fine-tunes a larger pre-trained LLM on the synthetic privacy-free code to mitigate the utility loss caused by DP, enhancing the utility of the generated code. Extensive experiments on four LLMs show that PrivCode generates higher-utility code across various testing tasks under four benchmarks. The experiments also confirm its ability to protect sensitive data under varying privacy budgets. We provide the replication package at the anonymous link.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成と補完において優れたパフォーマンスを示している。
しかし、これらのモデルをプライベートデータセットに微調整することで、機密性の高い個人情報の漏洩など、プライバシやプロプライエタリな懸念が高まる可能性がある。
差分的プライベート(DP)コード生成は、プライバシー漏洩の懸念を低減しつつ、統計特性を保存する合成データセットを生成することによって、機密コードを保護する理論的保証を提供する。
しかし、DPコード生成は、厳密な構文上の依存関係とプライバシーとユーティリティのトレードオフのため、重大な課題に直面している。
コードデータセットに特化して設計された最初のDPシンセサイザーであるPrivCodeを提案する。
プライバシとユーティリティの両方を改善するための2段階のフレームワークが組み込まれている。
プライバシー・サニタイズ(privacy-sanitizing)と呼ばれる第1段階では、PrivCodeは、DP-SGDを用いたトレーニングモデルを用いて、コード構造を保存するための構文情報を導入しながら、DP準拠の合成コードを生成する。
第2段階は「ユーティリティブースティング(utility-boosting)」と呼ばれ、DPによる実用上の損失を軽減し、生成されたコードの有用性を高めるために、合成プライバシのないコードに対して、より大規模な事前訓練されたLCMを微調整する。
4つのLLMの大規模な実験により、PrivCodeは4つのベンチマークで様々なテストタスクにまたがって高いユーティリティコードを生成することが示された。
実験はまた、さまざまなプライバシー予算の下で機密データを保護できることも確認した。
匿名リンクでレプリケーションパッケージを提供する。
関連論文リスト
- DP-RFT: Learning to Generate Synthetic Text via Differentially Private Reinforcement Fine-Tuning [51.35628297101575]
差分的プライベート(DP)合成データ生成は,個人データ上での大規模言語モデル(LLM)の開発において重要な役割を担っている。
LLMを用いた合成データ生成のためのオンライン強化学習アルゴリズムDP-RFTを導入する。
DP-RFTは,ニュース記事や会議録,医療記事の要約など,長文およびドメイン固有の合成データ生成に有用である。
論文 参考訳(メタデータ) (2026-02-20T22:03:56Z) - Towards Privacy-Preserving Code Generation: Differentially Private Code Language Models [2.4216414826638353]
本研究は,CodeLLMにおける差分プライバシー(DP)の有効性を体系的に評価する。
DPはテストされたすべてのスニペットタイプにわたるCodeLLMのメモリ化を大幅に削減する。
DPは難易度をわずかに向上させるが、CodeLLMsのコード生成機能も強化できる。
論文 参考訳(メタデータ) (2025-12-12T11:31:13Z) - How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。
Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文 参考訳(メタデータ) (2025-12-02T21:14:39Z) - Differentially Private Synthetic Text Generation for Retrieval-Augmented Generation (RAG) [13.736991294264827]
DP-SynRAG は LLM を用いて差分プライベートな合成RAG データベースを生成するフレームワークである。
従来の方法とは異なり、合成テキストは一度作成すれば再利用できるため、繰り返し発生するノイズ注入や追加のプライバシーコストを回避することができる。
DP-SynRAGは、固定されたプライバシー予算を維持しつつ、最先端のプライベートRAGシステムに対して優れたパフォーマンスを達成することを示す実験である。
論文 参考訳(メタデータ) (2025-10-08T07:15:50Z) - Machine Learning with Privacy for Protected Attributes [56.44253915927481]
差分プライバシー(DP)の定義を洗練し、機能差分プライバシー(FDP)と呼ばれるより汎用的で柔軟なフレームワークを作成する。
私たちの定義はシミュレーションに基づいており、プライバシの追加/削除と置き換えの両方が可能で、保護された機能と非保護された機能の任意の分離を処理できます。
各種機械学習タスクにフレームワークを適用し,パブリック機能が利用可能であればDP学習モデルの実用性を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2025-06-24T17:53:28Z) - DP-2Stage: Adapting Language Models as Differentially Private Tabular Data Generators [47.86275136491794]
差分プライベートデータ生成のための2段階微調整フレームワークDP-2Stageを提案する。
実験結果から、このアプローチは様々な設定やメトリクスのパフォーマンスを改善することが示された。
論文 参考訳(メタデータ) (2024-12-03T14:10:09Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Differentially Private Prototypes for Imbalanced Transfer Learning [16.028575596905554]
本稿では,個人間移動学習の新たなパラダイムとして,DPPL(differially Private Prototype Learning)を提案する。
DPPLは、埋め込み空間内の各プライベートクラスを表すプロトタイプを生成し、推論のために公開することができる。
エンコーダの事前トレーニング以上の公開データを活用すれば,プライバシユーティリティのトレードオフをさらに改善できることを示す。
論文 参考訳(メタデータ) (2024-06-12T09:41:12Z) - DP-TLDM: Differentially Private Tabular Latent Diffusion Model [13.153278585144355]
合成データテーブルの高品質化とプライバシーリスクの低減を図るため,DPTLDM,differially Private Tabular Latent Diffusion Modelを提案する。
DPTLDMは,データ類似度の平均35%,下流タスクの実用性15%,データ識別性50%で,合成品質の向上を図っている。
論文 参考訳(メタデータ) (2024-03-12T17:27:49Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。