論文の概要: Private Synthetic Text Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.22971v1
- Date: Wed, 30 Oct 2024 12:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:28:14.214228
- Title: Private Synthetic Text Generation with Diffusion Models
- Title(参考訳): 拡散モデルを用いたプライベートテキスト生成
- Authors: Sebastian Ochs, Ivan Habernal,
- Abstract要約: 完全オープンソース LLM はプライバシー体制における拡散モデルよりも優れていることを示す。
私たちの完全なソースコード、データセット、実験的なセットアップは、将来の研究を促進するために公開されています。
- 参考スコア(独自算出の注目度): 13.240347195231305
- License:
- Abstract: How capable are diffusion models of generating synthetics texts? Recent research shows their strengths, with performance reaching that of auto-regressive LLMs. But are they also good in generating synthetic data if the training was under differential privacy? Here the evidence is missing, yet the promises from private image generation look strong. In this paper we address this open question by extensive experiments. At the same time, we critically assess (and reimplement) previous works on synthetic private text generation with LLMs and reveal some unmet assumptions that might have led to violating the differential privacy guarantees. Our results partly contradict previous non-private findings and show that fully open-source LLMs outperform diffusion models in the privacy regime. Our complete source codes, datasets, and experimental setup is publicly available to foster future research.
- Abstract(参考訳): 合成テキスト生成の拡散モデルはどの程度有効か?
近年の研究では, 自己回帰型LDMの性能が向上している。
しかし、トレーニングが差分プライバシー下にある場合、合成データを生成することにも長けているのだろうか?
ここでは証拠がないが、プライベート画像生成の約束は強く見える。
本稿では、このオープンな問題に広範な実験により対処する。
同時に、LLMを用いた合成プライベートテキスト生成に関する以前の研究を批判的に評価(そして再実装)し、差分プライバシー保証に違反した可能性があるいくつかの未解決の仮定を明らかにします。
その結果、従来の非私的発見とは部分的に矛盾し、完全なオープンソース LLM がプライバシ・システマレーにおける拡散モデルより優れていることが示された。
私たちの完全なソースコード、データセット、実験的なセットアップは、将来の研究を促進するために公開されています。
関連論文リスト
- Private prediction for large-scale synthetic text generation [28.488459921169905]
大規模言語モデル(LLM)を用いた微分プライベートテキスト生成手法を提案する。
プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。
論文 参考訳(メタデータ) (2024-07-16T18:28:40Z) - A Synthetic Dataset for Personal Attribute Inference [2.9373912230684565]
LLMはオンラインのテキストから個人情報を正確に推測する能力だ。
個人属性を手動でラベル付けした7800以上のコメントからなる多様な合成データセットであるSynthPAIを生成する。
我々のデータセットを人間による研究で検証し、人間が実際のコメントを区別するタスクにおいて、ランダムな推測をわずかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-11T12:50:53Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - Differentially Private Knowledge Distillation via Synthetic Text Generation [5.201318326501886]
本研究では,差分プライベートな知識蒸留アルゴリズムであるDistilDPを提案する。
DistilDPは、差分的にプライベートなLLMによって生成された合成データを利用する。
実験の結果, DistilDPは既存のベースラインよりも実用性を大幅に向上できることがわかった。
論文 参考訳(メタデータ) (2024-03-01T19:22:24Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - PrivLM-Bench: A Multi-level Privacy Evaluation Benchmark for Language Models [42.20437015301152]
言語モデル(LM)のプライバシー漏洩を評価するベンチマークであるPrivLM-Benchを提案する。
DPパラメータのみを報告するのではなく、PrivLM-Benchは実際の使用中に無視された推論データのプライバシに光を当てる。
メインストリームLMのためのGLUEの3つのデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-11-07T14:55:52Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Analyzing Privacy Leakage in Machine Learning via Multiple Hypothesis
Testing: A Lesson From Fano [83.5933307263932]
本研究では,離散データに対するデータ再構成攻撃について検討し,仮説テストの枠組みの下で解析する。
基礎となるプライベートデータが$M$のセットから値を取ると、ターゲットのプライバシパラメータ$epsilon$が$O(log M)$になる。
論文 参考訳(メタデータ) (2022-10-24T23:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。