論文の概要: Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data
- arxiv url: http://arxiv.org/abs/2409.11423v1
- Date: Thu, 12 Sep 2024 10:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 22:12:27.547987
- Title: Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data
- Title(参考訳): フェイクプライバシを持つ生成データ - 生成されたデータに基づいて、微調整された大規模言語モデルの危険性を隠蔽する
- Authors: Atilla Akkus, Mingjie Li, Junjie Chu, Michael Backes, Yang Zhang, Sinem Sav,
- Abstract要約: 大規模言語モデル(LLM)は、特に微調整後の領域固有のタスクでかなりの成功を収めている。
現実世界のデータによる微調整は通常、特に事前トレーニングデータに微調整サンプルが存在する場合、プライバシー上のリスクにつながる。
LLM生成データによる微調整によってプライバシーが向上するか、さらなるプライバシーリスクが生じるのか?
- 参考スコア(独自算出の注目度): 19.93652217096443
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have shown considerable success in a range of domain-specific tasks, especially after fine-tuning. However, fine-tuning with real-world data usually leads to privacy risks, particularly when the fine-tuning samples exist in the pre-training data. To avoid the shortcomings of real data, developers often employ methods to automatically generate synthetic data for fine-tuning, as data generated by traditional models are often far away from the real-world pertaining data. However, given the advanced capabilities of LLMs, the distinction between real data and LLM-generated data has become negligible, which may also lead to privacy risks like real data. In this paper, we present an empirical analysis of this underexplored issue by investigating a key question: "Does fine-tuning with LLM-generated data enhance privacy, or does it pose additional privacy risks?" Based on the structure of LLM's generated data, our research focuses on two primary approaches to fine-tuning with generated data: supervised fine-tuning with unstructured generated data and self-instruct tuning. The number of successful Personal Information Identifier (PII) extractions for Pythia after fine-tuning our generated data raised over $20\%$. Furthermore, the ROC-AUC score of membership inference attacks for Pythia-6.9b after self-instruct methods also achieves more than $40\%$ improvements on ROC-AUC score than base models. The results indicate the potential privacy risks in LLMs when fine-tuning with the generated data.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に微調整後の領域固有のタスクでかなりの成功を収めている。
しかし、実際のデータによる微調整は通常、特に事前トレーニングデータに微調整サンプルが存在する場合、プライバシー上のリスクにつながる。
実際のデータの欠点を避けるため、開発者はしばしば、従来のモデルによって生成されたデータが実際の関連するデータから遠く離れているため、微調整のために合成データを自動生成する手法を用いる。
しかし、LLMの高度な機能を考えると、実データとLLM生成データの区別は無視されるようになり、実際のデータのようなプライバシー上のリスクにつながる可能性がある。
本稿では、LLM生成データによる微調整によってプライバシーが向上するか、さらなるプライバシーリスクが生じるか」という重要な疑問を調査することで、この未解決問題の実証分析を行う。
本研究は,LLM生成データの構造に基づいて,非構造化データを用いた教師付き微調整と自己インストラクションチューニングという,生成データによる微調整の2つの主要なアプローチに焦点を当てた。
生成されたデータを微調整した後、PII(Personal Information Identifier)によるPII(Personal Information Identifier)抽出が成功した。
さらに、 Pythia-6.9b の ROC-AUC スコアは、自己指示法により、ベースモデルよりも ROC-AUC スコアが 40\% 以上改善されている。
その結果、生成されたデータを微調整する場合、LCMの潜在的なプライバシーリスクが示唆された。
関連論文リスト
- Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - HARMONIC: Harnessing LLMs for Tabular Data Synthesis and Privacy Protection [44.225151701532454]
本稿では,表データ生成と評価のための新しいフレームワークHARMONICを提案する。
本フレームワークは, 既存の手法と同等の性能を向上し, また, 合成データの有効性とプライバシーリスクを評価するための評価枠組みを実証する。
論文 参考訳(メタデータ) (2024-08-06T03:21:13Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - MALLM-GAN: Multi-Agent Large Language Model as Generative Adversarial Network for Synthesizing Tabular Data [10.217822818544475]
大規模言語モデル(LLM)を用いた合成(語彙)データを生成するフレームワークを提案する。
提案手法は, サンプルサイズが小さい一般的なシナリオにおいて, 合成データ生成の品質を著しく向上させる。
以上の結果から,本モデルは下流タスクにおける高品質な合成データを生成する上で,実際のデータのプライバシを維持しつつ,いくつかの最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-15T06:26:17Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - PrivGen: Preserving Privacy of Sequences Through Data Generation [14.579475552088688]
シークエンシャルデータは、研究の基盤として機能し、プロセスの改善につながる可能性がある。
このようなデータへのアクセスと利用は、通常、ユーザーのプライバシーを侵害する懸念のために制限されるか、まったく許可されない。
そこで我々はPrivGenを提案する。PrivGenは、ソースデータのパターンと特徴を保守するデータを生成する革新的な方法である。
論文 参考訳(メタデータ) (2020-02-23T05:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。