論文の概要: Privacy Implications of Retrieval-Based Language Models
- arxiv url: http://arxiv.org/abs/2305.14888v1
- Date: Wed, 24 May 2023 08:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 18:01:49.864923
- Title: Privacy Implications of Retrieval-Based Language Models
- Title(参考訳): 検索型言語モデルのプライバシーへの影響
- Authors: Yangsibo Huang, Samyak Gupta, Zexuan Zhong, Kai Li, Danqi Chen
- Abstract要約: 本稿では,検索に基づくLM,特に$k$NN-LMにおけるプライバシリスクに関する最初の研究について述べる。
パラメトリックモデルよりも、$k$NN-LMsの方がプライベートデータストアから個人情報をリークする可能性が高いことがわかりました。
- 参考スコア(独自算出の注目度): 26.87950501433784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-based language models (LMs) have demonstrated improved
interpretability, factuality, and adaptability compared to their parametric
counterparts, by incorporating retrieved text from external datastores. While
it is well known that parametric models are prone to leaking private data, it
remains unclear how the addition of a retrieval datastore impacts model
privacy. In this work, we present the first study of privacy risks in
retrieval-based LMs, particularly $k$NN-LMs. Our goal is to explore the optimal
design and training procedure in domains where privacy is of concern, aiming to
strike a balance between utility and privacy. Crucially, we find that $k$NN-LMs
are more susceptible to leaking private information from their private
datastore than parametric models. We further explore mitigations of privacy
risks. When privacy information is targeted and readily detected in the text,
we find that a simple sanitization step would completely eliminate the risks,
while decoupling query and key encoders achieves an even better utility-privacy
trade-off. Otherwise, we consider strategies of mixing public and private data
in both datastore and encoder training. While these methods offer modest
improvements, they leave considerable room for future work. Together, our
findings provide insights for practitioners to better understand and mitigate
privacy risks in retrieval-based LMs. Our code is available at:
https://github.com/Princeton-SysML/kNNLM_privacy .
- Abstract(参考訳): 検索型言語モデル(LM)は、外部データストアから取得したテキストを組み込むことにより、パラメトリック言語と比較して解釈可能性、事実性、適応性が改善された。
パラメトリックモデルがプライベートデータを漏洩しやすいことはよく知られているが、検索データストアの追加がモデルプライバシにどのように影響するかはまだ不明である。
本研究では,検索に基づくLM,特に$k$NN-LMにおけるプライバシリスクに関する最初の研究について述べる。
私たちのゴールは、プライバシが懸念されるドメインにおける最適な設計とトレーニング手順を探求することであり、ユーティリティとプライバシのバランスを取ることを目的としています。
重要なことに、$k$NN-LMsはパラメトリックモデルよりもプライベートデータストアから個人情報をリークする可能性が高い。
プライバシーリスクの軽減についても検討する。
プライバシ情報がテキストで標的にされ、容易に検出されると、単純なサニタイズステップによってリスクが完全に排除されると同時に、クエリとキーエンコーダの分離によって、さらに優れたユーティリティプライバシトレードオフが実現される。
さもなければ、データストアとエンコーダトレーニングの両方で、パブリックデータとプライベートデータを混合する戦略を検討する。
これらの手法は緩やかな改善をもたらすが、将来の作業にかなりの余地を残している。
本研究は,検索型LMのプライバシーリスクをよりよく理解し,軽減するための知見を提供するものである。
私たちのコードは、https://github.com/Princeton-SysML/kNNLM_privacy で利用可能です。
関連論文リスト
- The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Private Fine-tuning of Large Language Models with Zeroth-order
Optimization [54.24600476755372]
DP-ZO(DP-ZO)は、ゼロオーダー最適化を民営化し、トレーニングデータのプライバシを保存する、大規模言語モデルを微調整する新しい手法である。
DP-ZOは、SQuADから1000のトレーニングサンプルにOPT-66Bを微調整すると、プライバシが1,10-5)$-DPになるため、わずか1.86%のパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2024-01-09T03:53:59Z) - $\alpha$-Mutual Information: A Tunable Privacy Measure for Privacy
Protection in Data Sharing [4.475091558538915]
本稿では, 有基の$alpha$-Mutual Informationを調整可能なプライバシ尺度として採用する。
我々は、プライバシ保護を提供するためにオリジナルのデータを操作するための一般的な歪みに基づくメカニズムを定式化する。
論文 参考訳(メタデータ) (2023-10-27T16:26:14Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models
via Contextual Integrity Theory [86.8514623654506]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - Large Language Models Can Be Good Privacy Protection Learners [53.07930843882592]
本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Can Language Models be Instructed to Protect Personal Information? [30.187731765653428]
シミュレーションシナリオにおいて、モデルが特定の個人情報のカテゴリを保護するように指示されたとき、プライバシ/ユーティリティトレードオフを評価するためのベンチマークであるPrivQAを紹介します。
我々は,テキストや画像入力による単純なジェイルブレイク手法により,敵が容易にこれらの保護を回避できることを見出した。
PrivQAは、プライバシー保護を改善した新しいモデルの開発と、これらの保護の敵意的な堅牢性をサポートする可能性があると考えています。
論文 参考訳(メタデータ) (2023-10-03T17:30:33Z) - Knowledge Unlearning for Mitigating Privacy Risks in Language Models [31.322818016245087]
言語モデルのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。
トークンシーケンスのターゲットに異種トレーニングの目的を単純に適用することは、それを忘れるのに効果的であることを示す。
抽出攻撃に脆弱なデータが先入観として知られているシナリオでは、アンラーニングがより強力な経験的プライバシ保証を与える可能性があることを示す。
論文 参考訳(メタデータ) (2022-10-04T10:18:11Z) - Smooth Anonymity for Sparse Binary Matrices [84.60886611165573]
この作業では、スパースデータセット全体を第三者とプライベートに操作し、共有することを目的としています。
実際、差分プライバシーは、プライバシの金の標準として現れていますが、スパースデータセットの共有に関しては、主要な結果の1つとして、偏微分プライベートメカニズムが極めて弱いプライバシ保証を持つ運命にあることを証明しています。
我々は、スムーズな$k$匿名性を示し、スムーズな$k$匿名性を提供する単純なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - Production of Categorical Data Verifying Differential Privacy:
Conception and Applications to Machine Learning [0.0]
差別化プライバシは、プライバシとユーティリティのトレードオフの定量化を可能にする正式な定義である。
ローカルDP(LDP)モデルでは、ユーザはデータをサーバに送信する前に、ローカルにデータをサニタイズすることができる。
いずれの場合も、微分プライベートなMLモデルは、非プライベートなモデルとほぼ同じユーティリティメトリクスを達成できると結論付けました。
論文 参考訳(メタデータ) (2022-04-02T12:50:14Z) - Federated Deep Learning with Bayesian Privacy [28.99404058773532]
フェデレートラーニング(FL)は、ユーザ間でプライベートデータを共有せずにモデルを協調的に学習することで、データのプライバシを保護することを目的としている。
ホモモルフィック暗号化(HE)ベースの手法は、セキュアなプライバシ保護を提供するが、非常に高い計算と通信のオーバーヘッドに悩まされる。
差分プライバシ(DP)を用いたディープラーニングは,複雑な管理コストで実践的な学習アルゴリズムとして実装された。
論文 参考訳(メタデータ) (2021-09-27T12:48:40Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。