論文の概要: The Canary's Echo: Auditing Privacy Risks of LLM-Generated Synthetic Text
- arxiv url: http://arxiv.org/abs/2502.14921v1
- Date: Wed, 19 Feb 2025 15:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:28.354612
- Title: The Canary's Echo: Auditing Privacy Risks of LLM-Generated Synthetic Text
- Title(参考訳): カナリアのエコー:LLM生成合成テキストのプライバシーリスクを無視する
- Authors: Matthieu Meeus, Lukas Wutschitz, Santiago Zanella-Béguelin, Shruti Tople, Reza Shokri,
- Abstract要約: 我々は、事前訓練された大規模言語モデル(LLM)を微調整するために使用されるデータをターゲットにした会員推論攻撃(MIA)を設計する。
このようなデータに基づくMIAは、ランダムな推測よりもはるかに優れていることを示し、これは、合成データがトレーニングデータに関する情報を漏洩することを意味する。
この問題に対処するために、自動回帰モデルの力学を活用して、非分配プレフィックスと高パープレキサフィックスを備えたカナリアを設計する。
- 参考スコア(独自算出の注目度): 23.412546862849396
- License:
- Abstract: How much information about training samples can be gleaned from synthetic data generated by Large Language Models (LLMs)? Overlooking the subtleties of information flow in synthetic data generation pipelines can lead to a false sense of privacy. In this paper, we design membership inference attacks (MIAs) that target data used to fine-tune pre-trained LLMs that are then used to synthesize data, particularly when the adversary does not have access to the fine-tuned model but only to the synthetic data. We show that such data-based MIAs do significantly better than a random guess, meaning that synthetic data leaks information about the training data. Further, we find that canaries crafted to maximize vulnerability to model-based MIAs are sub-optimal for privacy auditing when only synthetic data is released. Such out-of-distribution canaries have limited influence on the model's output when prompted to generate useful, in-distribution synthetic data, which drastically reduces their vulnerability. To tackle this problem, we leverage the mechanics of auto-regressive models to design canaries with an in-distribution prefix and a high-perplexity suffix that leave detectable traces in synthetic data. This enhances the power of data-based MIAs and provides a better assessment of the privacy risks of releasing synthetic data generated by LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)が生成した合成データから,トレーニングサンプルに関する情報をどの程度取得できるのか?
合成データ生成パイプラインにおける情報フローの微妙さを見渡すことは、誤ったプライバシー意識につながる可能性がある。
本稿では,学習済みLLMの微調整に使用されるターゲットデータ,特に敵が微調整されたモデルにアクセスできなくても合成データにのみアクセス可能なMIAを設計する。
このようなデータに基づくMIAは、ランダムな推測よりもはるかに優れていることを示し、これは、合成データがトレーニングデータに関する情報を漏洩することを意味する。
さらに、モデルベースMIAの脆弱性を最大化するために作られたカナリアは、合成データのみを公開する場合、プライバシ監査に最適であることがわかった。
このようなアウト・オブ・ディストリビューション・カナリヤは、有用なイン・ディストリビューション合成データを生成するよう促されたとき、モデルの出力に限られた影響を与える。
この問題に対処するために,自動回帰モデルの力学を活用して,検出可能なトレースを合成データに残した非分布プレフィックスと高精度サフィックスを備えたカナリアを設計する。
これにより、データベースのMIAのパワーが向上し、LCMが生成した合成データを公開する際のプライバシーリスクをよりよく評価できる。
関連論文リスト
- Synthetic Data Can Mislead Evaluations: Membership Inference as Machine Text Detection [1.03590082373586]
会員評価における合成データの使用は、モデル記憶とデータ漏洩に関する誤った結論につながる可能性がある。
この問題は、実世界のサンプルの代わりに合成されたデータや機械で生成されたデータの損失など、モデル信号を用いた他の評価に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2025-01-20T23:19:15Z) - SafeSynthDP: Leveraging Large Language Models for Privacy-Preserving Synthetic Data Generation Using Differential Privacy [0.0]
差分プライバシー(DP)機構を用いた合成データセットを生成するための大規模言語モデル(Ms)の能力について検討する。
提案手法では,ラプラス分布やガウス分布を含むDPベースのノイズ注入法をデータ生成プロセスに組み込む。
次に、これらのDP強化合成データセットの有用性を、トレーニングされたMLモデルの性能と、元のデータでトレーニングされたモデルとを比較して評価する。
論文 参考訳(メタデータ) (2024-12-30T01:10:10Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic is all you need: removing the auxiliary data assumption for
membership inference attacks against synthetic data [9.061271587514215]
この仮定をどのように取り除くかを示し、MIAを合成データのみを用いて実行できるようにする。
その結果,MIAは実世界の2つのデータセットと2つの合成データジェネレータでまだ成功していることがわかった。
論文 参考訳(メタデータ) (2023-07-04T13:16:03Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。