論文の概要: KIPPS: Knowledge infusion in Privacy Preserving Synthetic Data
Generation
- arxiv url: http://arxiv.org/abs/2409.17315v1
- Date: Wed, 25 Sep 2024 19:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-30 12:41:44.027286
- Title: KIPPS: Knowledge infusion in Privacy Preserving Synthetic Data
Generation
- Title(参考訳): KIPPS: 合成データを保存するプライバシーの知識注入
代
- Authors: Anantaa Kotal and Anupam Joshi
- Abstract要約: 生成的ディープラーニングモデルは、ドメイン制約のある離散的および非ガウス的特徴をモデル化するのに苦労する。
生成モデルは、プライバシーリスクであるセンシティブな機能を繰り返す合成データを生成する。
本稿では,知識グラフから知識グラフにドメインと規則的知識を注入する新しいモデルKIPPSを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of privacy measures, including differential privacy
techniques, ensures a provable privacy guarantee for the synthetic data.
However, challenges arise for Generative Deep Learning models when tasked with
generating realistic data, especially in critical domains such as Cybersecurity
and Healthcare. Generative Models optimized for continuous data struggle to
model discrete and non-Gaussian features that have domain constraints.
Challenges increase when the training datasets are limited and not diverse. In
such cases, generative models create synthetic data that repeats sensitive
features, which is a privacy risk. Moreover, generative models face
difficulties comprehending attribute constraints in specialized domains. This
leads to the generation of unrealistic data that impacts downstream accuracy.
To address these issues, this paper proposes a novel model, KIPPS, that infuses
Domain and Regulatory Knowledge from Knowledge Graphs into Generative Deep
Learning models for enhanced Privacy Preserving Synthetic data generation. The
novel framework augments the training of generative models with supplementary
context about attribute values and enforces domain constraints during training.
This added guidance enhances the model's capacity to generate realistic and
domain-compliant synthetic data. The proposed model is evaluated on real-world
datasets, specifically in the domains of Cybersecurity and Healthcare, where
domain constraints and rules add to the complexity of the data. Our experiments
evaluate the privacy resilience and downstream accuracy of the model against
benchmark methods, demonstrating its effectiveness in addressing the balance
between privacy preservation and data accuracy in complex domains.
- Abstract(参考訳): 差分プライバシー技術を含むプライバシー対策の統合は、合成データに対する証明可能なプライバシー保証を保証する。
しかし、特にサイバーセキュリティやヘルスケアといった重要な領域において、現実的なデータを生成するタスクを行う場合、ジェネレーティブディープラーニングモデルに課題が生じる。
連続データに最適化された生成モデルは、ドメイン制約のある離散的および非ガウス的特徴をモデル化するのに苦労する。
トレーニングデータセットが制限され、多様性がない場合には、課題が増加する。
このような場合、生成モデルは、プライバシーリスクである機密性を繰り返す合成データを生成する。
さらに、生成モデルは、特殊領域における属性制約を解釈する困難に直面している。
これにより、下流の精度に影響を与える非現実的なデータが生成される。
これらの課題に対処するため,本研究では,知識グラフからドメインと規則的知識を取り入れた新しいモデルKIPPSを提案する。
このフレームワークは、属性値に関する追加コンテキストで生成モデルのトレーニングを強化し、トレーニング中にドメイン制約を強制する。
このガイダンスを追加することで、現実的でドメインに準拠した合成データを生成するためのモデルの能力が向上する。
提案したモデルは,特にCybersecurity and Healthcareの領域において,データの複雑性にドメインの制約とルールが付加されるような実世界のデータセットに基づいて評価される。
本実験は, 複雑な領域におけるプライバシ保存とデータ精度のバランスに対処する上での有効性を実証し, ベンチマーク手法に対するモデルのプライバシレジリエンスと下流精度を評価した。
関連論文リスト
- PATE-TripleGAN: Privacy-Preserving Image Synthesis with Gaussian Differential Privacy [4.586288671392977]
PATE-TripleGANというプライバシ保護トレーニングフレームワークを提案する。
ラベル付きデータへの依存を減らすために、ラベル付きデータの事前分類を行う分類器が組み込まれている。
PATE-TripleGANは、トレーニングデータのプライバシを確保しながら、高品質なラベル付きイメージデータセットを生成することができる。
論文 参考訳(メタデータ) (2024-04-19T09:22:20Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - Differentially Private Synthetic Data Generation via
Lipschitz-Regularised Variational Autoencoders [3.7463972693041274]
生成モデルが個々のトレーニング記録の多くの詳細を記憶する傾向があることは、しばしば見落とされがちである。
本稿では,生成モデルにおける本質を直接活用するデータ生成手法について検討する。
論文 参考訳(メタデータ) (2023-04-22T07:24:56Z) - Enabling Synthetic Data adoption in regulated domains [1.9512796489908306]
Model-CentricからData-Centricへの転換は、アルゴリズムよりもデータとその品質に重点を置いている。
特に、高度に規制されたシナリオにおける情報のセンシティブな性質を考慮する必要がある。
このようなコンウンドラムをバイパスする巧妙な方法は、生成プロセスから得られたデータであるSynthetic Dataに依存し、実際のデータプロパティを学習する。
論文 参考訳(メタデータ) (2022-04-13T10:53:54Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Differentially Private Synthetic Medical Data Generation using
Convolutional GANs [7.2372051099165065]
R'enyiの差分プライバシーを用いた合成データ生成のための差分プライベートフレームワークを開発する。
提案手法は, 畳み込み自己エンコーダと畳み込み生成対向ネットワークを利用して, 生成した合成データの重要な特性をある程度保存する。
私たちのモデルは、同じプライバシー予算の下で既存の最新モデルを上回ることを実証します。
論文 参考訳(メタデータ) (2020-12-22T01:03:49Z) - Hide-and-Seek Privacy Challenge [88.49671206936259]
NeurIPS 2020 Hide-and-Seek Privacy Challengeは、両方の問題を解決するための新しい2トラックの競争だ。
我々の頭から頭までのフォーマットでは、新しい高品質な集中ケア時系列データセットを用いて、合成データ生成トラック(「ヒッシャー」)と患者再識別トラック(「シーカー」)の参加者が直接対決する。
論文 参考訳(メタデータ) (2020-07-23T15:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。