論文の概要: Training Natural Language Processing Models on Encrypted Text for
Enhanced Privacy
- arxiv url: http://arxiv.org/abs/2305.03497v1
- Date: Wed, 3 May 2023 00:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 14:02:38.640591
- Title: Training Natural Language Processing Models on Encrypted Text for
Enhanced Privacy
- Title(参考訳): プライバシー強化のための暗号化テキストによる自然言語処理モデルのトレーニング
- Authors: Davut Emre Tasar, Ceren Ocal Tasar
- Abstract要約: 本研究では,暗号化されたテキストデータを用いたNLPモデルのトレーニング手法を提案する。
以上の結果から,暗号化モデルと非暗号化モデルの両方が同等の性能を発揮することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing use of cloud-based services for training and deploying
machine learning models, data privacy has become a major concern. This is
particularly important for natural language processing (NLP) models, which
often process sensitive information such as personal communications and
confidential documents. In this study, we propose a method for training NLP
models on encrypted text data to mitigate data privacy concerns while
maintaining similar performance to models trained on non-encrypted data. We
demonstrate our method using two different architectures, namely
Doc2Vec+XGBoost and Doc2Vec+LSTM, and evaluate the models on the 20 Newsgroups
dataset. Our results indicate that both encrypted and non-encrypted models
achieve comparable performance, suggesting that our encryption method is
effective in preserving data privacy without sacrificing model accuracy. In
order to replicate our experiments, we have provided a Colab notebook at the
following address: https://t.ly/lR-TP
- Abstract(参考訳): 機械学習モデルのトレーニングとデプロイにクラウドベースのサービスの利用が増加し、データプライバシが大きな関心事になっている。
これは自然言語処理(NLP)モデルにおいて特に重要であり、個人通信や機密文書などの機密情報を処理することが多い。
本研究では,非暗号化データ上で訓練されたモデルと同等の性能を維持しつつ,データプライバシの懸念を軽減するために,暗号化されたテキストデータ上でNLPモデルをトレーニングする方法を提案する。
提案手法はDoc2Vec+XGBoostとDoc2Vec+LSTMの2つの異なるアーキテクチャを用いて,20のNewsgroupsデータセット上でモデルを評価する。
その結果,暗号化モデルと非暗号化モデルの両方が同等の性能を達成し,モデルの精度を犠牲にすることなくデータのプライバシの保護に有効であることが示唆された。
実験を再現するために、以下のアドレスでColabノートを提供しました。
関連論文リスト
- Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - SentinelLMs: Encrypted Input Adaptation and Fine-tuning of Language
Models for Private and Secure Inference [6.0189674528771]
本稿では、ディープラーニングモデルに関連するプライバシとセキュリティの問題に対処する。
ディープニューラルネットワークモデルは、現代のAIベースの様々なアプリケーションにおいて重要なコンポーネントとして機能する。
パスキー暗号化されたユーザ固有テキストに対して,トランスフォーマーに基づく言語モデルを適応し,微調整する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-12-28T19:55:11Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Recovering from Privacy-Preserving Masking with Large Language Models [14.828717714653779]
マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。
難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-09-12T16:39:41Z) - Robust Representation Learning for Privacy-Preserving Machine Learning:
A Multi-Objective Autoencoder Approach [0.9831489366502302]
プライバシー保護機械学習(ppML)のための堅牢な表現学習フレームワークを提案する。
提案手法は,多目的方式でオートエンコーダを訓練することを中心に,符号化部からの潜伏と学習の特徴を符号化形式として結合する。
提案したフレームワークでは、元のフォームを公開せずに、データを共有し、サードパーティツールを使用することができます。
論文 参考訳(メタデータ) (2023-09-08T16:41:25Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Extracting Training Data from Large Language Models [78.3839333127544]
本論文では,言語モデルに問い合わせることで,学習データ抽出攻撃を実行して個々のトレーニング例を回復できることを実証する。
我々は,公開インターネットのスクレイプ上で訓練された言語モデルgpt-2に対する攻撃を実証し,モデルのトレーニングデータから数百の動詞のテキストシーケンスを抽出することができることを示した。
論文 参考訳(メタデータ) (2020-12-14T18:39:09Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。