論文の概要: Large Language Models Can Be Good Privacy Protection Learners
- arxiv url: http://arxiv.org/abs/2310.02469v1
- Date: Tue, 3 Oct 2023 22:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 17:24:36.860994
- Title: Large Language Models Can Be Good Privacy Protection Learners
- Title(参考訳): 大きな言語モデルは優れたプライバシー保護学習者になれる
- Authors: Yijia Xiao, Yiqiao Jin, Yushi Bai, Yue Wu, Xianjun Yang, Xiao Luo,
Wenchao Yu, Xujiang Zhao, Yanchi Liu, Haifeng Chen, Wei Wang, Wei Cheng
- Abstract要約: 本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
- 参考スコア(独自算出の注目度): 53.07930843882592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of Large Language Models (LLMs) has driven considerable
interest in fine-tuning them with domain-specific data to create specialized
language models. Nevertheless, such domain-specific fine-tuning data often
contains sensitive personally identifiable information (PII). Direct
fine-tuning LLMs on this data without privacy protection poses a risk of
leakage. To address this challenge, we introduce Privacy Protection Language
Models (PPLM), a novel paradigm for fine-tuning LLMs that effectively injects
domain-specific knowledge while safeguarding data privacy. Our work offers a
theoretical analysis for model design and delves into various techniques such
as corpus curation, penalty-based unlikelihood in training loss, and
instruction-based tuning, etc. Extensive experiments across diverse datasets
and scenarios demonstrate the effectiveness of our approaches. In particular,
instruction tuning with both positive and negative examples, stands out as a
promising method, effectively protecting private data while enhancing the
model's knowledge. Our work underscores the potential for Large Language Models
as robust privacy protection learners.
- Abstract(参考訳): 大規模言語モデル(llm)の普及により、専門言語モデルを作成するために、ドメイン固有のデータでそれらを微調整することへの関心が高まっている。
それでも、ドメイン固有の微調整データは、しばしば機密性のある個人識別情報(PII)を含む。
プライバシー保護なしにこのデータに直接微調整を施すと、漏洩のリスクが生じる。
この課題に対処するために、プライバシ保護言語モデル(PPLM)を導入します。これは、データプライバシを保護しながらドメイン固有の知識を効果的に注入する、微調整LDMのための新しいパラダイムです。
本研究は,モデル設計に関する理論的分析を行い,コーパスキュレーション,ペナルティに基づくトレーニング損失の不一致,インストラクションに基づくチューニングなど,様々な手法を考案する。
さまざまなデータセットやシナリオにわたる広範な実験が、私たちのアプローチの有効性を示しています。
特に、ポジティブな例とネガティブな例の両方の命令チューニングは有望な方法であり、モデルの知識を高めながらプライベートデータを効果的に保護する。
我々の研究は、プライバシー保護学習者としての大規模言語モデルの可能性を強調している。
関連論文リスト
- Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - SoK: Reducing the Vulnerability of Fine-tuned Language Models to
Membership Inference Attacks [1.03590082373586]
我々は,大規模言語モデルのメンバシップ推論攻撃に対する脆弱性について,初めて体系的なレビューを行った。
これらの攻撃に対して最高のプライバシー保護を実現するために、差分プライバシーと低ランク適応器を組み合わせることで、いくつかのトレーニング手法がプライバシーリスクを著しく低減することを発見した。
論文 参考訳(メタデータ) (2024-03-13T12:46:51Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework [6.828884629694705]
本稿では,LLMのプライバシ生成モデルであるPrivChatGPTという概念モデルを提案する。
PrivChatGPTは、データキュレーション/前処理中にユーザのプライバシを保護し、プライベートコンテキストの保存と大規模データのプライベートトレーニングプロセスという2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-19T06:55:13Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Context-Aware Differential Privacy for Language Modeling [41.54238543400462]
本稿では,CADP-LM(Context-Aware Differentially Private Language Model)を紹介する。
CADP-LMは、潜在的にセンシティブな情報を定義し、監査するために、エンフコンテクスの概念に依存している。
CADP-LMのユニークな特徴は、センシティブな文や文脈のみの保護を目標とする能力である。
論文 参考訳(メタデータ) (2023-01-28T20:06:16Z) - Differentially Private Language Models for Secure Data Sharing [19.918137395199224]
本稿では,生成言語モデルを個別に学習し,その結果を抽出する方法について述べる。
自然言語のプロンプトと新しいプロンプトミスマッチの損失を用いることで、高度に正確で流動的なテキストデータセットを作成できる。
我々は、我々の合成データセットが元のデータから情報を漏らさず、言語質が高いことを示す徹底的な実験を行う。
論文 参考訳(メタデータ) (2022-10-25T11:12:56Z) - You Are What You Write: Preserving Privacy in the Era of Large Language
Models [2.3431670397288005]
本稿では,様々な人気モデルを用いて,事前学習された表現に符号化された個人情報の範囲について,実証的研究を行う。
モデルの複雑さ,事前学習に使用するデータ量,およびデータ漏洩との間には,正の相関関係を示す。
論文 参考訳(メタデータ) (2022-04-20T11:12:53Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。