論文の概要: Privacy Implications of Retrieval-Based Language Models
- arxiv url: http://arxiv.org/abs/2305.14888v1
- Date: Wed, 24 May 2023 08:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 18:01:49.864923
- Title: Privacy Implications of Retrieval-Based Language Models
- Title(参考訳): 検索型言語モデルのプライバシーへの影響
- Authors: Yangsibo Huang, Samyak Gupta, Zexuan Zhong, Kai Li, Danqi Chen
- Abstract要約: 本稿では,検索に基づくLM,特に$k$NN-LMにおけるプライバシリスクに関する最初の研究について述べる。
パラメトリックモデルよりも、$k$NN-LMsの方がプライベートデータストアから個人情報をリークする可能性が高いことがわかりました。
- 参考スコア(独自算出の注目度): 26.87950501433784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-based language models (LMs) have demonstrated improved
interpretability, factuality, and adaptability compared to their parametric
counterparts, by incorporating retrieved text from external datastores. While
it is well known that parametric models are prone to leaking private data, it
remains unclear how the addition of a retrieval datastore impacts model
privacy. In this work, we present the first study of privacy risks in
retrieval-based LMs, particularly $k$NN-LMs. Our goal is to explore the optimal
design and training procedure in domains where privacy is of concern, aiming to
strike a balance between utility and privacy. Crucially, we find that $k$NN-LMs
are more susceptible to leaking private information from their private
datastore than parametric models. We further explore mitigations of privacy
risks. When privacy information is targeted and readily detected in the text,
we find that a simple sanitization step would completely eliminate the risks,
while decoupling query and key encoders achieves an even better utility-privacy
trade-off. Otherwise, we consider strategies of mixing public and private data
in both datastore and encoder training. While these methods offer modest
improvements, they leave considerable room for future work. Together, our
findings provide insights for practitioners to better understand and mitigate
privacy risks in retrieval-based LMs. Our code is available at:
https://github.com/Princeton-SysML/kNNLM_privacy .
- Abstract(参考訳): 検索型言語モデル(LM)は、外部データストアから取得したテキストを組み込むことにより、パラメトリック言語と比較して解釈可能性、事実性、適応性が改善された。
パラメトリックモデルがプライベートデータを漏洩しやすいことはよく知られているが、検索データストアの追加がモデルプライバシにどのように影響するかはまだ不明である。
本研究では,検索に基づくLM,特に$k$NN-LMにおけるプライバシリスクに関する最初の研究について述べる。
私たちのゴールは、プライバシが懸念されるドメインにおける最適な設計とトレーニング手順を探求することであり、ユーティリティとプライバシのバランスを取ることを目的としています。
重要なことに、$k$NN-LMsはパラメトリックモデルよりもプライベートデータストアから個人情報をリークする可能性が高い。
プライバシーリスクの軽減についても検討する。
プライバシ情報がテキストで標的にされ、容易に検出されると、単純なサニタイズステップによってリスクが完全に排除されると同時に、クエリとキーエンコーダの分離によって、さらに優れたユーティリティプライバシトレードオフが実現される。
さもなければ、データストアとエンコーダトレーニングの両方で、パブリックデータとプライベートデータを混合する戦略を検討する。
これらの手法は緩やかな改善をもたらすが、将来の作業にかなりの余地を残している。
本研究は,検索型LMのプライバシーリスクをよりよく理解し,軽減するための知見を提供するものである。
私たちのコードは、https://github.com/Princeton-SysML/kNNLM_privacy で利用可能です。
関連論文リスト
- FT-PrivacyScore: Personalized Privacy Scoring Service for Machine Learning Participation [4.772368796656325]
実際には、制御されたデータアクセスは、多くの産業や研究環境でデータプライバシを保護する主要な方法である。
我々は,FT-PrivacyScoreのプロトタイプを開発し,モデル微調整作業に参加する際のプライバシーリスクを効率よく定量的に推定できることを実証した。
論文 参考訳(メタデータ) (2024-10-30T02:41:26Z) - KnowledgeSG: Privacy-Preserving Synthetic Text Generation with Knowledge Distillation from Server [48.04903443425111]
大規模言語モデル (LLM) は、多くの当事者が自身のプライベートデータでLPMを微調整できるようにする。
置換のために合成データを利用するような既存のソリューションは、同時にパフォーマンスを改善し、プライバシを保存するのに苦労している。
我々は、合成データ品質を高め、プライバシを確保しつつモデル性能を向上させる新しいクライアントサーバフレームワークであるKnowledgeSGを提案する。
論文 参考訳(メタデータ) (2024-10-08T06:42:28Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - Defining 'Good': Evaluation Framework for Synthetic Smart Meter Data [14.779917834583577]
スマートメーターデータセットのプライバシーリスクを評価するには,標準プライバシ攻撃手法が不十分であることを示す。
本稿では,トレーニングデータを不確実なアウトレーラで注入し,それらのアウトレーラに直接プライバシ攻撃を発生させる手法を提案する。
論文 参考訳(メタデータ) (2024-07-16T14:41:27Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - Privacy Preserving Large Language Models: ChatGPT Case Study Based Vision and Framework [6.828884629694705]
本稿では,LLMのプライバシ生成モデルであるPrivChatGPTという概念モデルを提案する。
PrivChatGPTは、データキュレーション/前処理中にユーザのプライバシを保護し、プライベートコンテキストの保存と大規模データのプライベートトレーニングプロセスという2つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-19T06:55:13Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Knowledge Unlearning for Mitigating Privacy Risks in Language Models [31.322818016245087]
言語モデルのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。
トークンシーケンスのターゲットに異種トレーニングの目的を単純に適用することは、それを忘れるのに効果的であることを示す。
抽出攻撃に脆弱なデータが先入観として知られているシナリオでは、アンラーニングがより強力な経験的プライバシ保証を与える可能性があることを示す。
論文 参考訳(メタデータ) (2022-10-04T10:18:11Z) - Federated Deep Learning with Bayesian Privacy [28.99404058773532]
フェデレートラーニング(FL)は、ユーザ間でプライベートデータを共有せずにモデルを協調的に学習することで、データのプライバシを保護することを目的としている。
ホモモルフィック暗号化(HE)ベースの手法は、セキュアなプライバシ保護を提供するが、非常に高い計算と通信のオーバーヘッドに悩まされる。
差分プライバシ(DP)を用いたディープラーニングは,複雑な管理コストで実践的な学習アルゴリズムとして実装された。
論文 参考訳(メタデータ) (2021-09-27T12:48:40Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。