論文の概要: Synthetic Query Generation for Privacy-Preserving Deep Retrieval Systems
using Differentially Private Language Models
- arxiv url: http://arxiv.org/abs/2305.05973v2
- Date: Mon, 8 Jan 2024 19:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 20:18:34.623572
- Title: Synthetic Query Generation for Privacy-Preserving Deep Retrieval Systems
using Differentially Private Language Models
- Title(参考訳): 微分プライベート言語モデルを用いたプライバシー保護深部検索システムのための合成クエリ生成
- Authors: Aldo Gael Carranza, Rezsa Farahani, Natalia Ponomareva, Alex Kurakin,
Matthew Jagielski, Milad Nasr
- Abstract要約: 深層検索システムのトレーニングに先立って,クエリプライバシの確保を優先する手法を提案する。
提案手法では,DP言語モデル(LM)を用いて,元のデータを表すプライベートな合成クエリを生成する。
- 参考スコア(独自算出の注目度): 22.95381358083052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the challenge of ensuring differential privacy (DP) guarantees in
training deep retrieval systems. Training these systems often involves the use
of contrastive-style losses, which are typically non-per-example decomposable,
making them difficult to directly DP-train with since common techniques require
per-example gradient. To address this issue, we propose an approach that
prioritizes ensuring query privacy prior to training a deep retrieval system.
Our method employs DP language models (LMs) to generate private synthetic
queries representative of the original data. These synthetic queries can be
used in downstream retrieval system training without compromising privacy. Our
approach demonstrates a significant enhancement in retrieval quality compared
to direct DP-training, all while maintaining query-level privacy guarantees.
This work highlights the potential of harnessing LMs to overcome limitations in
standard DP-training methods.
- Abstract(参考訳): 我々は,深層検索システムの訓練において,差分プライバシー(dp)保証の確保という課題に対処している。
これらのシステムの訓練には、典型的には例ごとの分解不可能なコントラスト型損失の使用が伴うことが多く、共通技術では例ごとの勾配を必要とするためDP訓練が困難である。
この問題に対処するため,深層検索システムのトレーニングに先立って,クエリプライバシの確保を優先する手法を提案する。
提案手法では,DP言語モデルを用いて,元のデータを表すプライベートな合成クエリを生成する。
これらの合成クエリは、プライバシーを損なうことなく、下流検索システムのトレーニングに使用できる。
提案手法は,クエリレベルのプライバシ保証を維持しつつ,直接DPトレーニングと比較して,検索品質の大幅な向上を示す。
本研究は, 標準DP学習手法の限界を克服するために, LMを活用する可能性を強調した。
関連論文リスト
- Masked Differential Privacy [64.32494202656801]
本稿では,差分プライバシーを適用した機密領域を制御できる「マスク型差分プライバシー(DP)」という効果的なアプローチを提案する。
提案手法はデータに基づいて選択的に動作し,DPアプリケーションや差分プライバシーをデータサンプル内の他のプライバシー技術と組み合わせることなく,非感性時間領域を定義できる。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - LazyDP: Co-Designing Algorithm-Software for Scalable Training of Differentially Private Recommendation Models [8.92538797216985]
本稿ではDP-SGDを用いたプライベートRecSysトレーニングの特性について述べる。
本稿では,RecSysをDP-SGDでトレーニングする際の計算とメモリの問題に対処するアルゴリズムとソフトウェアの共同設計であるLazyDPを提案する。
最先端のDP-SGDトレーニングシステムと比較して,LazyDPが平均119倍のトレーニングスループット向上を実現していることを示す。
論文 参考訳(メタデータ) (2024-04-12T23:32:06Z) - Provable Privacy with Non-Private Pre-Processing [56.770023668379615]
非プライベートなデータ依存前処理アルゴリズムによって生じる追加のプライバシーコストを評価するための一般的なフレームワークを提案する。
当社のフレームワークは,2つの新しい技術的概念を活用することにより,全体的なプライバシー保証の上限を確立する。
論文 参考訳(メタデータ) (2024-03-19T17:54:49Z) - LLM-based Privacy Data Augmentation Guided by Knowledge Distillation
with a Distribution Tutor for Medical Text Classification [67.92145284679623]
ノイズの多いプライベートディストリビューションをモデル化し,プライバシコストの低いサンプル生成を制御するDPベースのチュータを提案する。
理論的には、モデルのプライバシ保護を分析し、モデルを実証的に検証する。
論文 参考訳(メタデータ) (2024-02-26T11:52:55Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Differentially-Private Data Synthetisation for Efficient Re-Identification Risk Control [3.8811062755861956]
$epsilon$-PrivateSMOTEは、再識別とリンケージ攻撃を防ぐためのテクニックである。
提案手法は,ノイズに起因した逆数による合成データ生成と,高リスクケースを難読化するための差分プライバシー原則を組み合わせたものである。
論文 参考訳(メタデータ) (2022-12-01T13:20:37Z) - PEARL: Data Synthesis via Private Embeddings and Adversarial
Reconstruction Learning [1.8692254863855962]
本稿では, 深層生成モデルを用いたデータ・フレームワークを, 差分的にプライベートな方法で提案する。
当社のフレームワークでは、センシティブなデータは、厳格なプライバシ保証をワンショットで行うことで衛生化されています。
提案手法は理論的に性能が保証され,複数のデータセットに対する経験的評価により,提案手法が適切なプライバシーレベルで他の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-08T18:00:01Z) - Federated Intrusion Detection for IoT with Heterogeneous Cohort Privacy [0.0]
IoT(Internet of Things)デバイスはますます普及し、医療や輸送といった多くのアプリケーションドメインに影響を与える。
本研究では,このようなIoTデバイスのネットワーク上での侵入攻撃を検出するために,差分プライベート(DP)ニューラルネットワーク(NN)ベースのネットワーク侵入検出システム(NIDS)を検討する。
このドメインの既存のNNトレーニングソリューションは、プライバシの考慮を無視したり、すべてのユーザのプライバシー要件が均一であると仮定する。
クライアントのプライバシ要件が不均一である場合,非IDデータ分布を持つクライアントに対して,既存の差分プライベートメソッドの性能が低下することを示す。
論文 参考訳(メタデータ) (2021-01-25T03:33:27Z) - User-Level Privacy-Preserving Federated Learning: Analysis and
Performance Optimization [77.43075255745389]
フェデレートラーニング(FL)は、データを有用なモデルにトレーニングしながら、モバイル端末(MT)からプライベートデータを保存することができる。
情報理論の観点からは、MTがアップロードした共有モデルから、好奇心の強いサーバがプライベートな情報を推測することが可能である。
サーバにアップロードする前に、共有モデルに人工ノイズを加えることで、ユーザレベルの差分プライバシー(UDP)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-29T10:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。