論文の概要: Large Language Models Can Be Good Privacy Protection Learners
- arxiv url: http://arxiv.org/abs/2310.02469v1
- Date: Tue, 3 Oct 2023 22:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 17:24:36.860994
- Title: Large Language Models Can Be Good Privacy Protection Learners
- Title(参考訳): 大きな言語モデルは優れたプライバシー保護学習者になれる
- Authors: Yijia Xiao, Yiqiao Jin, Yushi Bai, Yue Wu, Xianjun Yang, Xiao Luo,
Wenchao Yu, Xujiang Zhao, Yanchi Liu, Haifeng Chen, Wei Wang, Wei Cheng
- Abstract要約: 本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
- 参考スコア(独自算出の注目度): 53.07930843882592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of Large Language Models (LLMs) has driven considerable
interest in fine-tuning them with domain-specific data to create specialized
language models. Nevertheless, such domain-specific fine-tuning data often
contains sensitive personally identifiable information (PII). Direct
fine-tuning LLMs on this data without privacy protection poses a risk of
leakage. To address this challenge, we introduce Privacy Protection Language
Models (PPLM), a novel paradigm for fine-tuning LLMs that effectively injects
domain-specific knowledge while safeguarding data privacy. Our work offers a
theoretical analysis for model design and delves into various techniques such
as corpus curation, penalty-based unlikelihood in training loss, and
instruction-based tuning, etc. Extensive experiments across diverse datasets
and scenarios demonstrate the effectiveness of our approaches. In particular,
instruction tuning with both positive and negative examples, stands out as a
promising method, effectively protecting private data while enhancing the
model's knowledge. Our work underscores the potential for Large Language Models
as robust privacy protection learners.
- Abstract(参考訳): 大規模言語モデル(llm)の普及により、専門言語モデルを作成するために、ドメイン固有のデータでそれらを微調整することへの関心が高まっている。
それでも、ドメイン固有の微調整データは、しばしば機密性のある個人識別情報(PII)を含む。
プライバシー保護なしにこのデータに直接微調整を施すと、漏洩のリスクが生じる。
この課題に対処するために、プライバシ保護言語モデル(PPLM)を導入します。これは、データプライバシを保護しながらドメイン固有の知識を効果的に注入する、微調整LDMのための新しいパラダイムです。
本研究は,モデル設計に関する理論的分析を行い,コーパスキュレーション,ペナルティに基づくトレーニング損失の不一致,インストラクションに基づくチューニングなど,様々な手法を考案する。
さまざまなデータセットやシナリオにわたる広範な実験が、私たちのアプローチの有効性を示しています。
特に、ポジティブな例とネガティブな例の両方の命令チューニングは有望な方法であり、モデルの知識を高めながらプライベートデータを効果的に保護する。
我々の研究は、プライバシー保護学習者としての大規模言語モデルの可能性を強調している。
関連論文リスト
- SoK: Reducing the Vulnerability of Fine-tuned Language Models to
Membership Inference Attacks [1.03590082373586]
我々は,大規模言語モデルのメンバシップ推論攻撃に対する脆弱性について,初めて体系的なレビューを行った。
これらの攻撃に対して最高のプライバシー保護を実現するために、差分プライバシーと低ランク適応器を組み合わせることで、いくつかのトレーニング手法がプライバシーリスクを著しく低減することを発見した。
論文 参考訳(メタデータ) (2024-03-13T12:46:51Z) - Membership Inference Attacks and Privacy in Topic Modeling [3.9379577980832843]
トレーニングデータのメンバーを確実に識別できるトピックモデルに対する攻撃を提案する。
本稿では,DP語彙選択を前処理ステップとして組み込んだプライベートトピックモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:43:42Z) - LLM-based Privacy Data Augmentation Guided by Knowledge Distillation
with a Distribution Tutor for Medical Text Classification [67.92145284679623]
ノイズの多いプライベートディストリビューションをモデル化し,プライバシコストの低いサンプル生成を制御するDPベースのチュータを提案する。
理論的には、モデルのプライバシ保護を分析し、モデルを実証的に検証する。
論文 参考訳(メタデータ) (2024-02-26T11:52:55Z) - EcomGPT-CT: Continual Pre-training of E-commerce Large Language Models
with Semi-structured Data [67.8302955948861]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示した。
これらのモデルを特定のドメインに適用しても、ドメイン知識の欠如など、大きな課題が生じる。
我々は、Eコマースドメインを例として用いたLLMのドメイン固有の継続事前学習に焦点を当てた。
論文 参考訳(メタデータ) (2023-12-25T11:31:47Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Context-Aware Differential Privacy for Language Modeling [41.54238543400462]
本稿では,CADP-LM(Context-Aware Differentially Private Language Model)を紹介する。
CADP-LMは、潜在的にセンシティブな情報を定義し、監査するために、エンフコンテクスの概念に依存している。
CADP-LMのユニークな特徴は、センシティブな文や文脈のみの保護を目標とする能力である。
論文 参考訳(メタデータ) (2023-01-28T20:06:16Z) - You Are What You Write: Preserving Privacy in the Era of Large Language
Models [2.3431670397288005]
本稿では,様々な人気モデルを用いて,事前学習された表現に符号化された個人情報の範囲について,実証的研究を行う。
モデルの複雑さ,事前学習に使用するデータ量,およびデータ漏洩との間には,正の相関関係を示す。
論文 参考訳(メタデータ) (2022-04-20T11:12:53Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。