論文の概要: Private Seeds, Public LLMs: Realistic and Privacy-Preserving Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2604.07486v1
- Date: Wed, 08 Apr 2026 18:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.505153
- Title: Private Seeds, Public LLMs: Realistic and Privacy-Preserving Synthetic Data Generation
- Title(参考訳): プライベートシード, パブリックLLM: 現実的かつプライバシ保護型合成データ生成
- Authors: Qian Ma, Sarah Rajtmajer,
- Abstract要約: 大規模言語モデル(LLM)は、合成データ生成の強力なツールとして登場した。
特に重要なユースケースは、プライベートテキストの合成レプリカを作ることである。
実効性とプライバシ保護型合成データ生成(RPSG)を提案する。
- 参考スコア(独自算出の注目度): 6.645945056204045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have emerged as a powerful tool for synthetic data generation. A particularly important use case is producing synthetic replicas of private text, which requires carefully balancing privacy and utility. We propose Realistic and Privacy-Preserving Synthetic Data Generation (RPSG), which leverages privacy-preserving mechanisms, including formal differential privacy (DP); and private seeds, in particular text containing personal information, to generate realistic synthetic data. Comprehensive experiments against state-of-the-art private synthetic data generation methods demonstrate that RPSG achieves high fidelity to private data while providing strong privacy protection.
- Abstract(参考訳): 大規模言語モデル(LLM)は、合成データ生成の強力なツールとして登場した。
特に重要なユースケースは、プライバシとユーティリティのバランスを取る必要があるプライベートテキストの合成レプリカを作成することだ。
本稿では,形式的差分プライバシ(DP)を含むプライバシ保護機構を活用する実効性とプライバシ保護型合成データ生成(RPSG)と,個人情報を含むテキスト中のプライベートシードを用いて,リアルな合成データを生成することを提案する。
最先端のプライベートな合成データ生成手法に対する総合的な実験は、RSSGが強力なプライバシー保護を提供しながら、プライベートなデータに対する高い忠実性を達成していることを示している。
関連論文リスト
- DP-RFT: Learning to Generate Synthetic Text via Differentially Private Reinforcement Fine-Tuning [51.35628297101575]
差分的プライベート(DP)合成データ生成は,個人データ上での大規模言語モデル(LLM)の開発において重要な役割を担っている。
LLMを用いた合成データ生成のためのオンライン強化学習アルゴリズムDP-RFTを導入する。
DP-RFTは,ニュース記事や会議録,医療記事の要約など,長文およびドメイン固有の合成データ生成に有用である。
論文 参考訳(メタデータ) (2026-02-20T22:03:56Z) - How to DP-fy Your Data: A Practical Guide to Generating Synthetic Data With Differential Privacy [52.00934156883483]
Differential Privacy(DP)は、情報漏洩を推論し、制限するフレームワークである。
Differentially Private Synthetic Dataは、ソースデータの全体的なトレンドを保存する合成データを指す。
論文 参考訳(メタデータ) (2025-12-02T21:14:39Z) - SMOTE-DP: Improving Privacy-Utility Tradeoff with Synthetic Data [13.699107354397286]
合成データ生成の適切なメカニズムにより、大きなユーティリティ損失を伴わずに、強力なプライバシ保護を実現することができることを示す。
我々は,このSMOTE-DP技術が,堅牢なプライバシ保護を保証するだけでなく,下流学習タスクにおいて有効性を維持する合成データを生成することを理論的および実証的な実証を通じて証明した。
論文 参考訳(メタデータ) (2025-06-02T17:27:10Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Practical considerations on using private sampling for synthetic data [1.3654846342364308]
合成データ生成の異なるプライバシは、合成データを自由に使用しながらプライバシを保存する能力のために、多くの注目を集めている。
プライベートサンプリングは、プライバシーと正確性のために厳密な境界を持つ微分プライベートな合成データを構築する最初のノイズフリー手法である。
本稿では,プライベートサンプリングアルゴリズムの実装と,実例における制約の現実性について議論する。
論文 参考訳(メタデータ) (2023-12-12T10:20:04Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Synthetic Text Generation with Differential Privacy: A Simple and
Practical Recipe [32.63295550058343]
テキスト領域におけるシンプルで実用的なレシピは、強力なプライバシー保護を備えた有用な合成テキストを生成するのに有効であることを示す。
提案手法は,非私的テキストと実用性で競合する合成テキストを生成する。
論文 参考訳(メタデータ) (2022-10-25T21:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。