論文の概要: The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG)
- arxiv url: http://arxiv.org/abs/2402.16893v1
- Date: Fri, 23 Feb 2024 18:35:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:23:47.258001
- Title: The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG)
- Title(参考訳): The Good and the Bad: Exploring Privacy Issues in Retrieval-Augmented Generation (RAG)
- Authors: Shenglai Zeng, Jiankun Zhang, Pengfei He, Yue Xing, Yiding Liu, Han
Xu, Jie Ren, Shuaiqiang Wang, Dawei Yin, Yi Chang, Jiliang Tang
- Abstract要約: Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
- 参考スコア(独自算出の注目度): 56.67603627046346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) is a powerful technique to facilitate
language model with proprietary and private data, where data privacy is a
pivotal concern. Whereas extensive research has demonstrated the privacy risks
of large language models (LLMs), the RAG technique could potentially reshape
the inherent behaviors of LLM generation, posing new privacy issues that are
currently under-explored. In this work, we conduct extensive empirical studies
with novel attack methods, which demonstrate the vulnerability of RAG systems
on leaking the private retrieval database. Despite the new risk brought by RAG
on the retrieval data, we further reveal that RAG can mitigate the leakage of
the LLMs' training data. Overall, we provide new insights in this paper for
privacy protection of retrieval-augmented LLMs, which benefit both LLMs and RAG
systems builders. Our code is available at
https://github.com/phycholosogy/RAG-privacy.
- Abstract(参考訳): Retrieval-augmented Generation(RAG)は、データプライバシが重要な関心事である、プロプライエタリデータとプライベートデータによる言語モデルを容易にする強力なテクニックである。
大規模な言語モデル(LLM)のプライバシーリスクは広範な研究によって実証されているが、RAG技術はLLM生成の固有の振る舞いを再構築する可能性がある。
本研究では,プライベート検索データベースを漏洩するRAGシステムの脆弱性を実証する,新たな攻撃手法による広範な実証研究を行う。
検索データに対するRAGの新たなリスクにもかかわらず,RAGがLPMのトレーニングデータの漏洩を軽減できることが明らかとなった。
本稿では,LLM とRAG システムビルダの双方にメリットがある検索拡張 LLM のプライバシ保護に関する新たな知見を提供する。
私たちのコードはhttps://github.com/phycholosogy/rag-privacyで利用可能です。
関連論文リスト
- PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented
Generation of Large Language Models [49.606341607616926]
我々は、RAGに対する知識中毒攻撃のセットであるPoisonedRAGを提案する。
我々は、知識中毒攻撃を最適化問題として定式化し、その解決策は有毒テキストの集合である。
以上の結果から,対象の質問に対して5つの有毒テキストを100万テキストのデータベースに注入した場合,攻撃が90%の攻撃成功率を達成する可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:28:36Z) - The Janus Interface: How Fine-Tuning in Large Language Models Amplifies
the Privacy Risks [18.04249592281006]
本稿では,この問題に対する最初の解決策,特にJanus 攻撃と呼ばれる新たな LLM 攻撃経路の発見について報告する。
以上の結果より, GPT-3.5 などの LLM が不透過性からPII 抽出に移行できることが示唆された。
本研究は,LLMユーティリティとプライバシ保護との間の複雑な相互作用をナビゲートする上での必須事項であることを示す。
論文 参考訳(メタデータ) (2023-10-24T02:48:19Z) - Privacy in Large Language Models: Attacks, Defenses and Future
Directions [46.30861174408193]
大規模言語モデル(LLM)を対象とした現在のプライバシ攻撃を分析し、敵の想定能力に応じて分類する。
本稿では、これらのプライバシー攻撃に対抗するために開発された防衛戦略について概説する。
論文 参考訳(メタデータ) (2023-10-16T13:23:54Z) - Knowledge Sanitization of Large Language Models [4.722882736419499]
大規模な言語モデル(LLM)は、大量のWebデータをトレーニングすることで、機密情報や機密情報を明らかにする可能性がある。
我々の手法はローランド適応法(LoRA)を用いてこれらのモデルを効率的に微調整する。
クローズドブック質問応答タスクによる実験結果から,本手法は知識リークを最小限に抑えるだけでなく,LLMの全体的な性能も維持できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T07:49:55Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Privacy Implications of Retrieval-Based Language Models [26.87950501433784]
本稿では,検索に基づくLM,特に$k$NN-LMにおけるプライバシリスクに関する最初の研究について述べる。
パラメトリックモデルよりも、$k$NN-LMsの方がプライベートデータストアから個人情報をリークする可能性が高いことがわかりました。
論文 参考訳(メタデータ) (2023-05-24T08:37:27Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z) - Multi-step Jailbreaking Privacy Attacks on ChatGPT [47.10284364632862]
我々は,OpenAI の ChatGPT と ChatGPT によって強化された New Bing のプライバシー上の脅威について検討した。
我々は、当社の主張を裏付ける広範な実験を行い、LLMのプライバシーへの影響について論じる。
論文 参考訳(メタデータ) (2023-04-11T13:05:04Z) - Survey: Leakage and Privacy at Inference Time [59.957056214792665]
公開されている機械学習(ML)モデルからのデータの漏洩は、ますます重要になっている分野である。
公開モデルの最も可能性の高いシナリオとして、推論時のリークに注目します。
本稿では,不随意・不随意の漏洩,防御,そして現在利用可能な評価指標と応用にまたがる分類法を提案する。
論文 参考訳(メタデータ) (2021-07-04T12:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。