論文の概要: Leveraging Vertical Public-Private Split for Improved Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2504.10987v1
- Date: Tue, 15 Apr 2025 08:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:28.829663
- Title: Leveraging Vertical Public-Private Split for Improved Synthetic Data Generation
- Title(参考訳): 改良された合成データ生成のための垂直的パブリック・プロビテイト・スプリットの活用
- Authors: Samuel Maddock, Shripad Gade, Graham Cormode, Will Bullock,
- Abstract要約: Differentially Private Synthetic Data Generationは、プライベートおよびセキュアなデータ共有を可能にする重要な手段である。
最近の文献では、少量の公開データが合成データの質を高めるのに役立つシナリオを探求している。
本稿では,水平的公共支援手法を垂直配置に適応させる新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 9.819636361032256
- License:
- Abstract: Differentially Private Synthetic Data Generation (DP-SDG) is a key enabler of private and secure tabular-data sharing, producing artificial data that carries through the underlying statistical properties of the input data. This typically involves adding carefully calibrated statistical noise to guarantee individual privacy, at the cost of synthetic data quality. Recent literature has explored scenarios where a small amount of public data is used to help enhance the quality of synthetic data. These methods study a horizontal public-private partitioning which assumes access to a small number of public rows that can be used for model initialization, providing a small utility gain. However, realistic datasets often naturally consist of public and private attributes, making a vertical public-private partitioning relevant for practical synthetic data deployments. We propose a novel framework that adapts horizontal public-assisted methods into the vertical setting. We compare this framework against our alternative approach that uses conditional generation, highlighting initial limitations of public-data assisted methods and proposing future research directions to address these challenges.
- Abstract(参考訳): Differentially Private Synthetic Data Generation (DP-SDG) は、プライベートでセキュアな表データの共有を可能にする重要な手段であり、入力データの基盤となる統計的特性を通した人工データを生成する。
これは一般的に、個々のプライバシを保証するために慎重に調整された統計ノイズを合成データ品質のコストで追加する。
最近の文献では、少量の公開データが合成データの質を高めるのに役立つシナリオを探求している。
これらの手法は、モデル初期化に使用できる少数のパブリック行へのアクセスを前提とした水平なパブリックプライベートパーティショニングを研究し、小さなユーティリティゲインを提供する。
しかし、現実的なデータセットは、しばしば自然にパブリック属性とプライベート属性で構成され、実用的な合成データ配置に関係のある垂直なパブリックプライベートパーティショニングを実現する。
本稿では,水平的公共支援手法を垂直配置に適応させる新しい枠組みを提案する。
我々は,この枠組みを条件付き生成を用いた代替手法と比較し,公開データ支援手法の初期限界を強調し,これらの課題に対処するための今後の研究方向を提案する。
関連論文リスト
- Tabular Data Synthesis with Differential Privacy: A Survey [24.500349285858597]
データ共有はコラボレーティブなイノベーションの前提条件であり、さまざまなデータセットを活用して深い洞察を得ることを可能にします。
データ合成は、実際のデータの統計特性を保存する人工データセットを生成することで、この問題に対処する。
プライバシーに配慮したデータ共有に対する、有望なアプローチとして、異なるプライベートなデータ合成が登場している。
論文 参考訳(メタデータ) (2024-11-04T06:32:48Z) - Private prediction for large-scale synthetic text generation [28.488459921169905]
大規模言語モデル(LLM)を用いた微分プライベートテキスト生成手法を提案する。
プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。
論文 参考訳(メタデータ) (2024-07-16T18:28:40Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Joint Selection: Adaptively Incorporating Public Information for Private
Synthetic Data [13.56146208014469]
我々は,適応測定フレームワークを拡張して,公開データとプライベートデータとを協調的に選択する機構であるjam-pgmを開発した。
また, ジャム-pgmは, 公用データ分布に偏りがある場合でも, 公用データと非公用データ生成機構の両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-03-12T16:34:07Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Practical considerations on using private sampling for synthetic data [1.3654846342364308]
合成データ生成の異なるプライバシは、合成データを自由に使用しながらプライバシを保存する能力のために、多くの注目を集めている。
プライベートサンプリングは、プライバシーと正確性のために厳密な境界を持つ微分プライベートな合成データを構築する最初のノイズフリー手法である。
本稿では,プライベートサンプリングアルゴリズムの実装と,実例における制約の現実性について議論する。
論文 参考訳(メタデータ) (2023-12-12T10:20:04Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - Partition-based differentially private synthetic data generation [0.5095097384893414]
プライバシ予算が限られていても、エラーを低減し、合成データの品質を向上させる分割ベースのアプローチを提案する。
提案手法を用いて生成した合成データは、品質と有用性の向上を示し、プライベートな合成データ共有に好適な選択である。
論文 参考訳(メタデータ) (2023-10-10T07:23:37Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - DP2-Pub: Differentially Private High-Dimensional Data Publication with
Invariant Post Randomization [58.155151571362914]
本稿では,2つのフェーズで動作する差分プライベートな高次元データパブリッシング機構(DP2-Pub)を提案する。
属性をクラスタ内凝集度の高い低次元クラスタに分割し、クラスタ間の結合度を低くすることで、適切なプライバシ予算を得ることができる。
また、DP2-Pubメカニズムを、ローカルの差分プライバシーを満たす半正直なサーバでシナリオに拡張します。
論文 参考訳(メタデータ) (2022-08-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。