論文の概要: You Are What You Write: Preserving Privacy in the Era of Large Language
Models
- arxiv url: http://arxiv.org/abs/2204.09391v1
- Date: Wed, 20 Apr 2022 11:12:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 18:09:53.538742
- Title: You Are What You Write: Preserving Privacy in the Era of Large Language
Models
- Title(参考訳): あなたが書いたもの - 大規模言語モデルの時代におけるプライバシ保護
- Authors: Richard Plant, Valerio Giuffrida, Dimitra Gkatzia
- Abstract要約: 本稿では,様々な人気モデルを用いて,事前学習された表現に符号化された個人情報の範囲について,実証的研究を行う。
モデルの複雑さ,事前学習に使用するデータ量,およびデータ漏洩との間には,正の相関関係を示す。
- 参考スコア(独自算出の注目度): 2.3431670397288005
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large scale adoption of large language models has introduced a new era of
convenient knowledge transfer for a slew of natural language processing tasks.
However, these models also run the risk of undermining user trust by exposing
unwanted information about the data subjects, which may be extracted by a
malicious party, e.g. through adversarial attacks. We present an empirical
investigation into the extent of the personal information encoded into
pre-trained representations by a range of popular models, and we show a
positive correlation between the complexity of a model, the amount of data used
in pre-training, and data leakage. In this paper, we present the first wide
coverage evaluation and comparison of some of the most popular
privacy-preserving algorithms, on a large, multi-lingual dataset on sentiment
analysis annotated with demographic information (location, age and gender). The
results show since larger and more complex models are more prone to leaking
private information, use of privacy-preserving methods is highly desirable. We
also find that highly privacy-preserving technologies like differential privacy
(DP) can have serious model utility effects, which can be ameliorated using
hybrid or metric-DP techniques.
- Abstract(参考訳): 大規模言語モデルの大規模導入は、自然言語処理タスクを多用する便利な知識伝達の新たな時代をもたらした。
しかし、これらのモデルはまた、悪意ある当事者によって抽出されるかもしれないデータ対象に関する望ましくない情報を公開することで、ユーザーの信頼を損なうリスクも負う。
本稿では,事前学習された表現にエンコードされた個人情報の程度について,モデルの複雑さ,事前学習に使用されるデータ量,データ漏洩との間に正の相関関係を示す。
本稿では,人口統計情報(位置情報,年齢,性別)にアノテートされた感情分析に基づく大規模多言語データセットを用いた,プライバシ保護アルゴリズムの広範にわたる評価と比較を行った。
その結果、より大規模で複雑なモデルでは個人情報を漏らす傾向が強く、プライバシー保護手法の使用が極めて望ましいことが示された。
また,差分プライバシ(dp)のようなプライバシ保全技術は,ハイブリッドあるいはメトリック-dp技術を用いて改善可能な,重大なモデルユーティリティ効果をも有することがわかった。
関連論文リスト
- Forget to Flourish: Leveraging Machine-Unlearning on Pretrained Language Models for Privacy Leakage [12.892449128678516]
下流アプリケーション用のプライベートデータ上の微調整言語モデルは、重大なプライバシーリスクを生じさせる。
いくつかの人気のあるコミュニティプラットフォームが、様々な事前訓練されたモデルの便利な配布を提供している。
本稿では,モデル学習を攻撃ツールとして利用する新しい毒殺手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T15:35:09Z) - Privacy-preserving datasets by capturing feature distributions with Conditional VAEs [0.11999555634662634]
条件付き変分オートエンコーダ(CVAE)は、大きな事前学習された視覚基盤モデルから抽出された特徴ベクトルに基づいて訓練される。
本手法は, 医用領域と自然画像領域の両方において, 従来のアプローチよりも優れている。
結果は、データスカースおよびプライバシに敏感な環境におけるディープラーニングアプリケーションに大きな影響を与える生成モデルの可能性を強調している。
論文 参考訳(メタデータ) (2024-08-01T15:26:24Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Recovering from Privacy-Preserving Masking with Large Language Models [14.828717714653779]
マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。
難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-09-12T16:39:41Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Differentially Private Language Models for Secure Data Sharing [19.918137395199224]
本稿では,生成言語モデルを個別に学習し,その結果を抽出する方法について述べる。
自然言語のプロンプトと新しいプロンプトミスマッチの損失を用いることで、高度に正確で流動的なテキストデータセットを作成できる。
我々は、我々の合成データセットが元のデータから情報を漏らさず、言語質が高いことを示す徹底的な実験を行う。
論文 参考訳(メタデータ) (2022-10-25T11:12:56Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。