論文の概要: KnowledgeSG: Privacy-Preserving Synthetic Text Generation with Knowledge Distillation from Server
- arxiv url: http://arxiv.org/abs/2410.05725v2
- Date: Thu, 10 Oct 2024 03:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 13:19:50.157084
- Title: KnowledgeSG: Privacy-Preserving Synthetic Text Generation with Knowledge Distillation from Server
- Title(参考訳): KnowledgeSG: サーバからの知識蒸留によるプライバシ保護型合成テキスト生成
- Authors: Wenhao Wang, Xiaoyu Liang, Rui Ye, Jingyi Chai, Siheng Chen, Yanfeng Wang,
- Abstract要約: 大規模言語モデル (LLM) は、多くの当事者が自身のプライベートデータでLPMを微調整できるようにする。
置換のために合成データを利用するような既存のソリューションは、同時にパフォーマンスを改善し、プライバシを保存するのに苦労している。
我々は、合成データ品質を高め、プライバシを確保しつつモデル性能を向上させる新しいクライアントサーバフレームワークであるKnowledgeSGを提案する。
- 参考スコア(独自算出の注目度): 48.04903443425111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of large language models (LLMs) facilitate many parties to fine-tune LLMs on their own private data. However, this practice raises privacy concerns due to the memorization of LLMs. Existing solutions, such as utilizing synthetic data for substitution, struggle to simultaneously improve performance and preserve privacy. They either rely on a local model for generation, resulting in a performance decline, or take advantage of APIs, directly exposing the data to API servers. To address this issue, we propose KnowledgeSG, a novel client-server framework which enhances synthetic data quality and improves model performance while ensuring privacy. We achieve this by learning local knowledge from the private data with differential privacy (DP) and distilling professional knowledge from the server. Additionally, inspired by federated learning, we transmit models rather than data between the client and server to prevent privacy leakage. Extensive experiments in medical and financial domains demonstrate the effectiveness of KnowledgeSG. Our code is now publicly available at https://github.com/wwh0411/KnowledgeSG.
- Abstract(参考訳): 大規模言語モデル(LLM)の成功は、多くの当事者が自身のプライベートデータに基づいてLLMを微調整することを促進する。
しかし、この慣行はLLMの記憶のためにプライバシー上の懸念を提起する。
置換のために合成データを利用するような既存のソリューションは、同時にパフォーマンスを改善し、プライバシを保存するのに苦労している。
それらは生成のためにローカルモデルに依存しており、パフォーマンスが低下する結果になるか、APIを利用してデータをAPIサーバに直接公開する。
この問題に対処するため、我々は、合成データ品質を高め、プライバシを確保しつつモデル性能を向上させる新しいクライアントサーバフレームワークであるKnowledgeSGを提案する。
本研究では,DP(差分プライバシ)を用いてプライベートデータからローカル知識を学習し,サーバから専門知識を抽出することによってこれを実現している。
さらに、フェデレーション学習にインスパイアされた私たちは、プライバシの漏洩を防ぐために、クライアントとサーバ間でデータではなくモデルを送信します。
医療・金融分野における大規模な実験は、ナレッジSGの有効性を実証している。
私たちのコードはhttps://github.com/wwh0411/KnowledgeSG.comで公開されています。
関連論文リスト
- The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - DP-OPT: Make Large Language Model Your Privacy-Preserving Prompt Engineer [57.04801796205638]
大きな言語モデル(LLM)は、様々なタスクのための支配的なツールとして現れています。
しかし、データプライバシに関する懸念は、調整されたプロンプトが機密情報に依存しているため、障害となる。
本稿では,DP-OPT(Dis Differentially-Private Offsite Prompt Tuning)を提案する。
論文 参考訳(メタデータ) (2023-11-27T02:01:10Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Love or Hate? Share or Split? Privacy-Preserving Training Using Split
Learning and Homomorphic Encryption [47.86010265348072]
Split Learning(SL)は、参加者がクライアントが生データを共有せずに機械学習モデルをトレーニングすることを可能にする、新たなコラボレーティブな学習テクニックである。
以前の研究は、アクティベーションマップの再構築がクライアントデータのプライバシー漏洩につながることを示した。
本稿では,U字型SLをベースとしたプロトコルを構築し,同義的に暗号化されたデータを操作することにより,従来の作業を改善する。
論文 参考訳(メタデータ) (2023-09-19T10:56:08Z) - A More Secure Split: Enhancing the Security of Privacy-Preserving Split Learning [2.853180143237022]
Split Learning(SL)は、参加者がクライアントが生データを共有せずに機械学習モデルをトレーニングすることを可能にする、新たなコラボレーティブな学習テクニックである。
以前の研究は、アクティベーションマップ(AM)の再構築がクライアントデータのプライバシー漏洩をもたらすことを示した。
本稿では,U字型SLをベースとしたプロトコルを構築し,同義的に暗号化されたデータを操作することにより,従来の作業を改善する。
論文 参考訳(メタデータ) (2023-09-15T18:39:30Z) - Privacy Implications of Retrieval-Based Language Models [26.87950501433784]
本稿では,検索に基づくLM,特に$k$NN-LMにおけるプライバシリスクに関する最初の研究について述べる。
パラメトリックモデルよりも、$k$NN-LMsの方がプライベートデータストアから個人情報をリークする可能性が高いことがわかりました。
論文 参考訳(メタデータ) (2023-05-24T08:37:27Z) - FedBot: Enhancing Privacy in Chatbots with Federated Learning [0.0]
Federated Learning(FL)は、データをその場所に保持する分散学習方法を通じて、データのプライバシを保護することを目的としている。
POCはDeep Bidirectional Transformerモデルとフェデレーション学習アルゴリズムを組み合わせて、コラボレーティブモデルトレーニング中の顧客のデータプライバシを保護する。
このシステムは、過去のインタラクションから学習する能力を活用することで、時間とともにパフォーマンスと精度を向上させるように設計されている。
論文 参考訳(メタデータ) (2023-04-04T23:13:52Z) - Smooth Anonymity for Sparse Graphs [69.1048938123063]
しかし、スパースデータセットを共有するという点では、差分プライバシーがプライバシのゴールドスタンダードとして浮上している。
本研究では、スムーズな$k$匿名性(スムーズな$k$匿名性)と、スムーズな$k$匿名性(スムーズな$k$匿名性)を提供する単純な大規模アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - Efficient and Privacy Preserving Group Signature for Federated Learning [2.121963121603413]
Federated Learning(FL)は、ユーザデータのプライバシに対する脅威を軽減することを目的とした機械学習(ML)テクニックである。
本稿では,グループ署名に基づくFLの効率的かつプライバシ保護プロトコルを提案する。
論文 参考訳(メタデータ) (2022-07-12T04:12:10Z) - FedCG: Leverage Conditional GAN for Protecting Privacy and Maintaining Competitive Performance in Federated Learning [11.852346300577494]
フェデレートラーニング(FL)は、クライアントがプライベートデータを共有せずに、協調して機械学習モデルを構築することを可能にすることで、データのプライバシを保護することを目的としている。
近年の研究では、FL中に交換された情報が勾配に基づくプライバシー攻撃の対象であることが示されている。
我々は,条件付き生成対向ネットワークを利用して高レベルのプライバシ保護を実現する新しいフェデレーション学習手法である$textscFedCG$を提案する。
論文 参考訳(メタデータ) (2021-11-16T03:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。