論文の概要: MC-GEN:Multi-level Clustering for Private Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2205.14298v1
- Date: Sat, 28 May 2022 02:11:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 01:12:46.487483
- Title: MC-GEN:Multi-level Clustering for Private Synthetic Data Generation
- Title(参考訳): MC-GEN:プライベートデータ生成のためのマルチレベルクラスタリング
- Authors: Mingchen Li, Di Zhuang, and J. Morris Chang
- Abstract要約: 差分プライバシー保証下でのプライバシー保護型合成データ生成手法であるMC-GENを提案する。
MC-GENは、多レベルクラスタ化されたデータに基づいて微分プライベートな生成モデルを構築し、合成データセットを生成する。
その結果, MC-GENは, 複数の分類タスクにおいて, 一定のプライバシー保証の下で有意な効果が得られた。
- 参考スコア(独自算出の注目度): 9.787793858206737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, machine learning is one of the most common technology to turn raw
data into useful information in scientific and industrial processes. The
performance of the machine learning model often depends on the size of dataset.
Companies and research institutes usually share or exchange their data to avoid
data scarcity. However, sharing original datasets that contain private
information can cause privacy leakage. Utilizing synthetic datasets which have
similar characteristics as a substitute is one of the solutions to avoid the
privacy issue. Differential privacy provides a strong privacy guarantee to
protect the individual data records which contain sensitive information. We
propose MC-GEN, a privacy-preserving synthetic data generation method under
differential privacy guarantee for multiple classification tasks. MC-GEN builds
differentially private generative models on the multi-level clustered data to
generate synthetic datasets. Our method also reduced the noise introduced from
differential privacy to improve the utility. In experimental evaluation, we
evaluated the parameter effect of MC-GEN and compared MC-GEN with three
existing methods. Our results showed that MC-GEN can achieve significant
effectiveness under certain privacy guarantees on multiple classification
tasks.
- Abstract(参考訳): 今日では、機械学習は、生データを科学や産業のプロセスで有用な情報に変える最も一般的な技術の1つだ。
機械学習モデルのパフォーマンスは、しばしばデータセットのサイズに依存する。
企業や研究機関は通常、データの不足を避けるためにデータを共有または交換する。
しかし、プライベート情報を含むオリジナルのデータセットを共有すると、プライバシーが漏洩する可能性がある。
代用として類似した特徴を持つ合成データセットを利用することは、プライバシー問題を回避するためのソリューションのひとつだ。
識別プライバシーは、機密情報を含む個々のデータレコードを保護するために強力なプライバシー保証を提供する。
複数の分類タスクに対して、差分プライバシー保証の下で、プライバシを保存する合成データ生成手法MC-GENを提案する。
MC-GENは、多レベルクラスタ化されたデータに基づいて微分プライベートな生成モデルを構築し、合成データセットを生成する。
また,差分プライバシーから導入したノイズを低減し,実用性の向上を図る。
実験評価では,mc-genのパラメータ効果を評価し,既存の3つの方法と比較した。
その結果, MC-GENは, 複数の分類タスクにおいて, 一定のプライバシー保証の下で有意な効果が得られた。
関連論文リスト
- Tabular Data Synthesis with Differential Privacy: A Survey [24.500349285858597]
データ共有はコラボレーティブなイノベーションの前提条件であり、さまざまなデータセットを活用して深い洞察を得ることを可能にします。
データ合成は、実際のデータの統計特性を保存する人工データセットを生成することで、この問題に対処する。
プライバシーに配慮したデータ共有に対する、有望なアプローチとして、異なるプライベートなデータ合成が登場している。
論文 参考訳(メタデータ) (2024-11-04T06:32:48Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Privacy-Preserving Machine Learning for Collaborative Data Sharing via
Auto-encoder Latent Space Embeddings [57.45332961252628]
データ共有プロセスにおけるプライバシ保護機械学習は、極めて重要なタスクである。
本稿では、オートエンコーダによる表現学習を用いて、プライバシーを保護した組込みデータを生成する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-10T17:36:58Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z) - Differentially Private Synthetic Data: Applied Evaluations and
Enhancements [4.749807065324706]
異なるプライベートデータ合成は、個人の詳細を露出から保護する。
データ合成のための4つの差分私的生成対向ネットワークの評価を行った。
合成データを生成するためのアンサンブルに基づくモデリング手法であるQUAILを提案する。
論文 参考訳(メタデータ) (2020-11-11T04:03:08Z) - P3GM: Private High-Dimensional Data Release via Privacy Preserving
Phased Generative Model [23.91327154831855]
本稿では,プライバシ保護型位相生成モデル(P3GM)を提案する。
P3GMは2段階の学習プロセスを採用し、ノイズに対して堅牢にし、学習効率を向上させる。
最先端の手法と比較して、生成したサンプルはノイズが少なく、データ多様性の観点からも元のデータに近いように見える。
論文 参考訳(メタデータ) (2020-06-22T09:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。