論文の概要: Private Synthetic Text Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.22971v1
- Date: Wed, 30 Oct 2024 12:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:28:14.214228
- Title: Private Synthetic Text Generation with Diffusion Models
- Title(参考訳): 拡散モデルを用いたプライベートテキスト生成
- Authors: Sebastian Ochs, Ivan Habernal,
- Abstract要約: 完全オープンソース LLM はプライバシー体制における拡散モデルよりも優れていることを示す。
私たちの完全なソースコード、データセット、実験的なセットアップは、将来の研究を促進するために公開されています。
- 参考スコア(独自算出の注目度): 13.240347195231305
- License:
- Abstract: How capable are diffusion models of generating synthetics texts? Recent research shows their strengths, with performance reaching that of auto-regressive LLMs. But are they also good in generating synthetic data if the training was under differential privacy? Here the evidence is missing, yet the promises from private image generation look strong. In this paper we address this open question by extensive experiments. At the same time, we critically assess (and reimplement) previous works on synthetic private text generation with LLMs and reveal some unmet assumptions that might have led to violating the differential privacy guarantees. Our results partly contradict previous non-private findings and show that fully open-source LLMs outperform diffusion models in the privacy regime. Our complete source codes, datasets, and experimental setup is publicly available to foster future research.
- Abstract(参考訳): 合成テキスト生成の拡散モデルはどの程度有効か?
近年の研究では, 自己回帰型LDMの性能が向上している。
しかし、トレーニングが差分プライバシー下にある場合、合成データを生成することにも長けているのだろうか?
ここでは証拠がないが、プライベート画像生成の約束は強く見える。
本稿では、このオープンな問題に広範な実験により対処する。
同時に、LLMを用いた合成プライベートテキスト生成に関する以前の研究を批判的に評価(そして再実装)し、差分プライバシー保証に違反した可能性があるいくつかの未解決の仮定を明らかにします。
その結果、従来の非私的発見とは部分的に矛盾し、完全なオープンソース LLM がプライバシ・システマレーにおける拡散モデルより優れていることが示された。
私たちの完全なソースコード、データセット、実験的なセットアップは、将来の研究を促進するために公開されています。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - Differentially Private Steering for Large Language Model Alignment [55.30573701583768]
本稿では,大規模言語モデルとプライベートデータセットの整合性に関する最初の研究について述べる。
本研究では, LLM underlineAment (PSA) アルゴリズムのためのtextitunderlinePrivate underlineSteeringを提案する。
以上の結果から,PSAはLPMアライメントのDP保証を実現し,性能の低下を最小限に抑えることができた。
論文 参考訳(メタデータ) (2025-01-30T17:58:36Z) - Private prediction for large-scale synthetic text generation [28.488459921169905]
大規模言語モデル(LLM)を用いた微分プライベートテキスト生成手法を提案する。
プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。
論文 参考訳(メタデータ) (2024-07-16T18:28:40Z) - A Synthetic Dataset for Personal Attribute Inference [2.9373912230684565]
LLMはオンラインのテキストから個人情報を正確に推測する能力だ。
個人属性を手動でラベル付けした7800以上のコメントからなる多様な合成データセットであるSynthPAIを生成する。
我々のデータセットを人間による研究で検証し、人間が実際のコメントを区別するタスクにおいて、ランダムな推測をわずかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-11T12:50:53Z) - Understanding Privacy Risks of Embeddings Induced by Large Language Models [75.96257812857554]
大きな言語モデルは、人工知能の初期の兆候を示すが、幻覚に苦しむ。
1つの有望な解決策は、外部知識を埋め込みとして保存し、LLMを検索強化世代に支援することである。
近年の研究では、事前学習された言語モデルによるテキスト埋め込みから、元のテキストを部分的に再構築できることが実験的に示されている。
論文 参考訳(メタデータ) (2024-04-25T13:10:48Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - Differentially Private Knowledge Distillation via Synthetic Text Generation [5.201318326501886]
本研究では,差分プライベートな知識蒸留アルゴリズムであるDistilDPを提案する。
DistilDPは、差分的にプライベートなLLMによって生成された合成データを利用する。
実験の結果, DistilDPは既存のベースラインよりも実用性を大幅に向上できることがわかった。
論文 参考訳(メタデータ) (2024-03-01T19:22:24Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。