Fugu-MT 論文翻訳(概要): SafeSynthDP: Leveraging Large Language Models for Privacy-Preserving Synthetic Data Generation Using Differential Privacy

論文の概要: SafeSynthDP: Leveraging Large Language Models for Privacy-Preserving Synthetic Data Generation Using Differential Privacy

arxiv url: http://arxiv.org/abs/2412.20641v1
Date: Mon, 30 Dec 2024 01:10:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.684735
Title: SafeSynthDP: Leveraging Large Language Models for Privacy-Preserving Synthetic Data Generation Using Differential Privacy
Title（参考訳）: SafeSynthDP: 差分プライバシを用いたプライバシ保存合成データ生成のための大規模言語モデルを活用する
Authors: Md Mahadi Hasan Nahid, Sadid Bin Hasan,
Abstract要約: 差分プライバシー(DP)機構を用いた合成データセットを生成するための大規模言語モデル(Ms)の能力について検討する。提案手法では,ラプラス分布やガウス分布を含むDPベースのノイズ注入法をデータ生成プロセスに組み込む。次に、これらのDP強化合成データセットの有用性を、トレーニングされたMLモデルの性能と、元のデータでトレーニングされたモデルとを比較して評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning (ML) models frequently rely on training data that may include sensitive or personal information, raising substantial privacy concerns. Legislative frameworks such as the General Data Protection Regulation (GDPR) and the California Consumer Privacy Act (CCPA) have necessitated the development of strategies that preserve privacy while maintaining the utility of data. In this paper, we investigate the capability of Large Language Models (LLMs) to generate synthetic datasets integrated with Differential Privacy (DP) mechanisms, thereby enabling data-driven research and model training without direct exposure of sensitive information. Our approach incorporates DP-based noise injection methods, including Laplace and Gaussian distributions, into the data generation process. We then evaluate the utility of these DP-enhanced synthetic datasets by comparing the performance of ML models trained on them against models trained on the original data. To substantiate privacy guarantees, we assess the resilience of the generated synthetic data to membership inference attacks and related threats. The experimental results demonstrate that integrating DP within LLM-driven synthetic data generation offers a viable balance between privacy protection and data utility. This study provides a foundational methodology and insight into the privacy-preserving capabilities of LLMs, paving the way for compliant and effective ML research and applications.
Abstract（参考訳）: 機械学習(ML)モデルは、機密情報や個人情報を含むトレーニングデータに頻繁に依存し、重大なプライバシー上の懸念を引き起こす。一般データ保護規則(GDPR)やカリフォルニア州消費者プライバシ法(CCPA)のような法的枠組みは、データの有用性を維持しながらプライバシーを維持する戦略の開発を必要としている。本稿では,Large Language Models(LLMs)の差分プライバシ(DP)機構と統合された合成データセットを生成する能力について検討する。提案手法では,ラプラス分布やガウス分布を含むDPベースのノイズ注入法をデータ生成プロセスに組み込む。次に、これらのDP強化合成データセットの有用性を、トレーニングされたMLモデルの性能と、元のデータでトレーニングされたモデルとを比較して評価する。プライバシ保証を裏付けるために、生成した合成データのレジリエンスをメンバーシップ推論攻撃および関連する脅威に対して評価する。実験結果から,LPM駆動型合成データ生成におけるDPの統合は,プライバシ保護とデータユーティリティのバランスを維持可能であることが示された。本研究は,LLMのプライバシ保護能力に関する基礎的方法論と洞察を提供し,コンプライアンスと効果的なML研究と応用の道を開くものである。

関連論文リスト

Rethinking Anonymity Claims in Synthetic Data Generation: A Model-Centric Privacy Attack Perspective [18.404146545866812]
合成データを生成するための生成機械学習モデルを訓練することは、データ共有におけるプライバシーを高めるための一般的なアプローチとなっている。これは一般的に機密性の高い個人情報を処理するため、トレーニングされたモデルまたは生成された合成匿名性は、プライバシー上のリスクを生じさせる可能性がある。有意義な評価は、基礎となる生成モデルの能力と特性を考慮し、最先端のプライバシ攻撃に基礎を置く必要がある、と我々は主張する。
論文参考訳（メタデータ） (2026-01-30T00:57:41Z)
How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。 Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文参考訳（メタデータ） (2025-12-02T21:14:39Z)
On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文参考訳（メタデータ） (2025-09-03T14:18:22Z)
Privacy Auditing Synthetic Data Release through Local Likelihood Attacks [7.780592134085148]
遺伝子様比攻撃(Gen-LRA) Gen-LRAは、サロゲートモデルによる合成データに対する局所確率比の推定において、テスト観測が与える影響を評価して攻撃を定式化する。その結果、Gen-LRAは、合成データのリリースのためのプライバシ監査ツールとしての有効性を裏付けている。
論文参考訳（メタデータ） (2025-08-28T18:27:40Z)
Synthetic Data Generation and Differential Privacy using Tensor Networks' Matrix Product States (MPS) [33.032422801043495]
マトリックス製品状態(MPS)を用いたプライバシー保護のための高品質な合成データ生成手法を提案する。我々は,MPSベースの生成モデルをCTGAN,VAE,PrivBayesといった最先端モデルと比較した。以上の結果から,MPSは特に厳格なプライバシー制約の下で,従来のモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2025-08-08T12:14:57Z)
Aim High, Stay Private: Differentially Private Synthetic Data Enables Public Release of Behavioral Health Information with High Utility [2.1715431485081593]
差別化プライバシ(DP)は、再識別リスクに対する正式な保証を提供する。我々は、リングスタディ(LEMURS)を用いて測定されたライブ体験の第1相のDP合成データを生成する。 LEMURSデータセットの実際の使用状況から情報を得たフレームワークを用いて,合成データの有用性を評価する。
論文参考訳（メタデータ） (2025-06-30T15:58:34Z)
The Canary's Echo: Auditing Privacy Risks of LLM-Generated Synthetic Text [23.412546862849396]
我々は、事前訓練された大規模言語モデル(LLM)を微調整するために使用されるデータをターゲットにした会員推論攻撃(MIA)を設計する。このようなデータに基づくMIAは、ランダムな推測よりもはるかに優れていることを示し、これは、合成データがトレーニングデータに関する情報を漏洩することを意味する。この問題に対処するために、自動回帰モデルの力学を活用して、非分配プレフィックスと高パープレキサフィックスを備えたカナリアを設計する。
論文参考訳（メタデータ） (2025-02-19T15:30:30Z)
Communication-Efficient and Privacy-Adaptable Mechanism for Federated Learning [54.20871516148981]
通信効率・プライバシー適応メカニズム(CEPAM)について紹介する。 CEPAMは通信効率とプライバシー保護を同時に達成する。我々は、CEPAMのプライバシー保証を理論的に分析し、CEPAMのユーザプライバシと正確性の間のトレードオフを調査する。
論文参考訳（メタデータ） (2025-01-21T11:16:05Z)
Differentially Private Non Parametric Copulas: Generating synthetic data with non parametric copulas under privacy guarantees [0.0]
本研究は、差分プライバシーを取り入れた非パラメトリックコプラベース合成データ生成モデルDPNPCの強化に焦点を当てる。 DPNPCと他の3つのモデル(PrivBayes、DP-Copula、DP-Histogram)を比較し、プライバシ、ユーティリティ、実行時間を評価する。
論文参考訳（メタデータ） (2024-09-27T10:18:14Z)
Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data [18.984529269623135]
本研究では,生成データによる微調整が真のプライバシ向上に寄与するか,新たなプライバシリスクを導入するかを検討する。プライバシリスクを測定するために、Pythia Model SuiteとOpen Pre-trained Transformerを使用します。
論文参考訳（メタデータ） (2024-09-12T10:14:12Z)
Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-16T14:28:56Z)
Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。 RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文参考訳（メタデータ） (2024-06-20T22:53:09Z)
FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。 FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文参考訳（メタデータ） (2024-03-10T08:41:22Z)
Data Collaboration Analysis with Orthogonal Basis Alignment [2.928964540437144]
Data Collaboration (DC)フレームワークは、マルチソースデータ融合のためのプライバシ保護ソリューションを提供する。その強みにもかかわらず、DCフレームワークは、生データのマッピングに使用されるベースを整合させるという理論的課題のために、しばしばパフォーマンスの不安定さに直面する。本研究は,直流フレームワーク内でのベースアライメントのための厳密な理論基盤を確立することで,これらの課題に対処する。
論文参考訳（メタデータ） (2024-03-05T08:52:16Z)
PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文参考訳（メタデータ） (2023-10-03T22:37:01Z)
Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文参考訳（メタデータ） (2023-07-04T18:37:11Z)
Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文参考訳（メタデータ） (2022-11-07T10:02:55Z)
Synthetic Text Generation with Differential Privacy: A Simple and Practical Recipe [32.63295550058343]
テキスト領域におけるシンプルで実用的なレシピは、強力なプライバシー保護を備えた有用な合成テキストを生成するのに有効であることを示す。提案手法は,非私的テキストと実用性で競合する合成テキストを生成する。
論文参考訳（メタデータ） (2022-10-25T21:21:17Z)
Privacy-preserving Generative Framework Against Membership Inference Attacks [10.791983671720882]
我々は、メンバーシップ推論攻撃に対するプライバシー保護のための生成フレームワークを設計する。まず、VAEモデルを通してソースデータを潜時空間にマッピングして潜時符号を取得し、次に潜時符号上でメートル法プライバシーを満たすノイズ処理を行い、最終的にVAEモデルを用いて合成データを再構成する。実験により、新たに生成した合成データを用いて学習した機械学習モデルは、メンバーシップ推論攻撃に効果的に抵抗でき、高いユーティリティを維持できることを示した。
論文参考訳（メタデータ） (2022-02-11T06:13:30Z)
Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。 FLと関連する技術は、しばしばプライバシー保護と表現される。この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文参考訳（メタデータ） (2021-12-21T08:44:05Z)
Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文参考訳（メタデータ） (2020-05-01T04:28:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。