論文の概要: Recovering from Privacy-Preserving Masking with Large Language Models
- arxiv url: http://arxiv.org/abs/2309.08628v3
- Date: Thu, 14 Dec 2023 00:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 04:05:17.019800
- Title: Recovering from Privacy-Preserving Masking with Large Language Models
- Title(参考訳): 大規模言語モデルによるプライバシー保護マスクからの回復
- Authors: Arpita Vats, Zhe Liu, Peng Su, Debjyoti Paul, Yingyi Ma, Yutong Pang,
Zeeshan Ahmed, Ozlem Kalinli
- Abstract要約: マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。
難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 14.828717714653779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model adaptation is crucial to handle the discrepancy between proxy training
data and actual users data received. To effectively perform adaptation, textual
data of users is typically stored on servers or their local devices, where
downstream natural language processing (NLP) models can be directly trained
using such in-domain data. However, this might raise privacy and security
concerns due to the extra risks of exposing user information to adversaries.
Replacing identifying information in textual data with a generic marker has
been recently explored. In this work, we leverage large language models (LLMs)
to suggest substitutes of masked tokens and have their effectiveness evaluated
on downstream language modeling tasks. Specifically, we propose multiple
pre-trained and fine-tuned LLM-based approaches and perform empirical studies
on various datasets for the comparison of these methods. Experimental results
show that models trained on the obfuscation corpora are able to achieve
comparable performance with the ones trained on the original data without
privacy-preserving token masking.
- Abstract(参考訳): モデル適応は、プロキシトレーニングデータと受信した実際のユーザデータとの相違を扱うために不可欠である。
効果的に適応するために、ユーザのテキストデータは、通常サーバーまたはローカルデバイスに格納され、下流自然言語処理(NLP)モデルは、そのようなドメイン内のデータを使って直接訓練することができる。
しかし、これは、相手にユーザー情報を暴露するリスクが余分にあるため、プライバシーとセキュリティの懸念を引き起こす可能性がある。
テキストデータ内の識別情報を汎用マーカーに置き換える手法が近年検討されている。
本研究では,大規模言語モデル(llm)を用いてマスキングトークンの代替案を提案し,その効果を下流言語モデリングタスクで評価する。
具体的には,複数の事前学習および微調整 LLM に基づくアプローチを提案し,これらの手法の比較のために様々なデータセットに関する実証的研究を行う。
実験結果から,難読化コーパスでトレーニングしたモデルは,プライバシ保護トークンマスキングを使わずに,元のデータでトレーニングしたモデルと同等のパフォーマンスを達成できることがわかった。
関連論文リスト
- SentinelLMs: Encrypted Input Adaptation and Fine-tuning of Language
Models for Private and Secure Inference [6.0189674528771]
本稿では、ディープラーニングモデルに関連するプライバシとセキュリティの問題に対処する。
ディープニューラルネットワークモデルは、現代のAIベースの様々なアプリケーションにおいて重要なコンポーネントとして機能する。
パスキー暗号化されたユーザ固有テキストに対して,トランスフォーマーに基づく言語モデルを適応し,微調整する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-12-28T19:55:11Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Large Language Models Can Be Good Privacy Protection Learners [53.07930843882592]
本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Differentially Private Language Models for Secure Data Sharing [19.918137395199224]
本稿では,生成言語モデルを個別に学習し,その結果を抽出する方法について述べる。
自然言語のプロンプトと新しいプロンプトミスマッチの損失を用いることで、高度に正確で流動的なテキストデータセットを作成できる。
我々は、我々の合成データセットが元のデータから情報を漏らさず、言語質が高いことを示す徹底的な実験を行う。
論文 参考訳(メタデータ) (2022-10-25T11:12:56Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - You Are What You Write: Preserving Privacy in the Era of Large Language
Models [2.3431670397288005]
本稿では,様々な人気モデルを用いて,事前学習された表現に符号化された個人情報の範囲について,実証的研究を行う。
モデルの複雑さ,事前学習に使用するデータ量,およびデータ漏洩との間には,正の相関関係を示す。
論文 参考訳(メタデータ) (2022-04-20T11:12:53Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Adversarial Representation Sharing: A Quantitative and Secure
Collaborative Learning Framework [3.759936323189418]
コミュニケーションのオーバーヘッドが低く,タスク依存度が低いため,共同学習において表現学習には独特なアドバンテージがあることがわかった。
ARSは、ユーザがモデルを訓練するためにデータの表現を共有する協調学習フレームワークである。
我々は,本機構がモデル逆攻撃に対して有効であることを実証し,プライバシとユーティリティのバランスを実現する。
論文 参考訳(メタデータ) (2022-03-27T13:29:15Z) - Training Data Leakage Analysis in Language Models [6.843491191969066]
本稿では,強大かつ現実的な脅威モデルの下で漏洩する可能性のあるトレーニングデータ中のユーザコンテンツを識別する手法を提案する。
本研究では,トレーニングデータに固有の文断片を生成するモデルの能力を測定することにより,ユーザレベルのデータ漏洩を定量化する2つの指標を提案する。
論文 参考訳(メタデータ) (2021-01-14T00:57:32Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。