論文の概要: SentinelLMs: Encrypted Input Adaptation and Fine-tuning of Language
Models for Private and Secure Inference
- arxiv url: http://arxiv.org/abs/2312.17342v1
- Date: Thu, 28 Dec 2023 19:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 14:50:58.680930
- Title: SentinelLMs: Encrypted Input Adaptation and Fine-tuning of Language
Models for Private and Secure Inference
- Title(参考訳): SentinelLMs: プライベートおよびセキュア推論のための暗号化入力適応と言語モデルの微調整
- Authors: Abhijit Mishra, Mingda Li, Soham Deo
- Abstract要約: 本稿では、ディープラーニングモデルに関連するプライバシとセキュリティの問題に対処する。
ディープニューラルネットワークモデルは、現代のAIベースの様々なアプリケーションにおいて重要なコンポーネントとして機能する。
パスキー暗号化されたユーザ固有テキストに対して,トランスフォーマーに基づく言語モデルを適応し,微調整する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 6.0189674528771
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper addresses the privacy and security concerns associated with deep
neural language models, which serve as crucial components in various modern
AI-based applications. These models are often used after being pre-trained and
fine-tuned for specific tasks, with deployment on servers accessed through the
internet. However, this introduces two fundamental risks: (a) the transmission
of user inputs to the server via the network gives rise to interception
vulnerabilities, and (b) privacy concerns emerge as organizations that deploy
such models store user data with restricted context. To address this, we
propose a novel method to adapt and fine-tune transformer-based language models
on passkey-encrypted user-specific text. The original pre-trained language
model first undergoes a quick adaptation (without any further pre-training)
with a series of irreversible transformations applied to the tokenizer and
token embeddings. This enables the model to perform inference on encrypted
inputs while preventing reverse engineering of text from model parameters and
intermediate outputs. After adaptation, models are fine-tuned on encrypted
versions of existing training datasets. Experimental evaluation employing
adapted versions of renowned models (e.g., BERT, RoBERTa) across established
benchmark English and multilingual datasets for text classification and
sequence labeling shows that encrypted models achieve performance parity with
their original counterparts. This serves to safeguard performance, privacy, and
security cohesively.
- Abstract(参考訳): 本稿では、AIベースの様々なアプリケーションにおいて重要なコンポーネントとして機能するディープニューラルネットワークモデルに関連する、プライバシとセキュリティの問題に対処する。
これらのモデルは、事前にトレーニングされ、特定のタスクのために微調整された後にしばしば使用される。
しかし、これは2つの基本的なリスクをもたらす。
(a)ネットワーク経由のサーバへのユーザ入力の送信は、インターセプションの脆弱性を生じさせ、
b) このようなモデルをデプロイする組織は、制限されたコンテキストでユーザーデータを格納する。
そこで本研究では,パスキー暗号化されたユーザ固有テキストに対して,トランスフォーマーに基づく言語モデルを適応し,微調整する手法を提案する。
元々の事前学習された言語モデルは、トークン化子とトークン埋め込みに適用される一連の不可逆変換を伴う素早い適応(さらなる事前学習なし)を行う。
これにより、モデルパラメータと中間出力からのテキストのリバースエンジニアリングを防止しつつ、暗号化された入力に対して推論を行うことができる。
適応後、モデルは既存のトレーニングデータセットの暗号化バージョンで微調整される。
有名なモデル(例えばBERT、RoBERTa)の適応版を使用した実験的な評価は、テキスト分類とシーケンスラベリングのために確立された英語と多言語データセット間で、暗号化されたモデルが元のモデルと同等のパフォーマンスを達成することを示している。
これはパフォーマンス、プライバシ、セキュリティの保護に役立ちます。
関連論文リスト
- Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - FLIP: Towards Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
本稿では,クリックスルー率(CTR)予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
具体的には、1つのモダリティ(トークンや特徴)のマスキングされたデータは、他のモダリティの助けを借りて回復し、特徴レベルの相互作用とアライメントを確立する必要がある。
3つの実世界のデータセットの実験により、FLIPはSOTAベースラインより優れており、様々なIDベースのモデルやPLMと高い互換性を持つことが示された。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Recovering from Privacy-Preserving Masking with Large Language Models [14.828717714653779]
マスク付きトークンの代わりに大きな言語モデル(LLM)を提案する。
難読化コーパスでトレーニングしたモデルが,元のデータでトレーニングしたモデルと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-09-12T16:39:41Z) - Training Natural Language Processing Models on Encrypted Text for
Enhanced Privacy [0.0]
本研究では,暗号化されたテキストデータを用いたNLPモデルのトレーニング手法を提案する。
以上の結果から,暗号化モデルと非暗号化モデルの両方が同等の性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2023-05-03T00:37:06Z) - Q-LSTM Language Model -- Decentralized Quantum Multilingual Pre-Trained
Language Model for Privacy Protection [6.0038761646405225]
大規模言語モデルは、私たちのプライベート情報をエンコードしたり、反映したりする可能性のある、膨大な量の自然言語データに基づいて訓練されています。
悪意のあるエージェントは、事前トレーニングプロセスにデータ衛生と差分プライバシーアルゴリズムが関与している場合でも、トレーニングデータをリバースエンジニアリングすることができる。
大規模言語モデルの学習におけるプライバシー問題に対処する分散トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-06T21:29:17Z) - THE-X: Privacy-Preserving Transformer Inference with Homomorphic
Encryption [112.02441503951297]
トランスフォーマーモデルのプライバシ保護推論は、クラウドサービスユーザの要求に基づいています。
我々は、事前訓練されたモデルのプライバシ保存推論を可能にするトランスフォーマーの近似アプローチである$textitTHE-X$を紹介した。
論文 参考訳(メタデータ) (2022-06-01T03:49:18Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Selective Differential Privacy for Language Modeling [36.64464956102432]
これまでの研究は、RNNベースの言語モデルを異なるプライバシ保証でトレーニングすることで、この問題に対処しようとしてきた。
我々は、データの機密部分に対して厳密なプライバシー保証を提供するために、新しいプライバシー概念、選択的差分プライバシーを提案する。
言語モデリングとダイアログシステム構築の実験は、提案したプライバシー保護機構がより良いユーティリティを実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T01:11:10Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。