論文の概要: The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG)
- arxiv url: http://arxiv.org/abs/2402.16893v1
- Date: Fri, 23 Feb 2024 18:35:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:23:47.258001
- Title: The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG)
- Title(参考訳): The Good and the Bad: Exploring Privacy Issues in Retrieval-Augmented Generation (RAG)
- Authors: Shenglai Zeng, Jiankun Zhang, Pengfei He, Yue Xing, Yiding Liu, Han
Xu, Jie Ren, Shuaiqiang Wang, Dawei Yin, Yi Chang, Jiliang Tang
- Abstract要約: Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
- 参考スコア(独自算出の注目度): 56.67603627046346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) is a powerful technique to facilitate
language model with proprietary and private data, where data privacy is a
pivotal concern. Whereas extensive research has demonstrated the privacy risks
of large language models (LLMs), the RAG technique could potentially reshape
the inherent behaviors of LLM generation, posing new privacy issues that are
currently under-explored. In this work, we conduct extensive empirical studies
with novel attack methods, which demonstrate the vulnerability of RAG systems
on leaking the private retrieval database. Despite the new risk brought by RAG
on the retrieval data, we further reveal that RAG can mitigate the leakage of
the LLMs' training data. Overall, we provide new insights in this paper for
privacy protection of retrieval-augmented LLMs, which benefit both LLMs and RAG
systems builders. Our code is available at
https://github.com/phycholosogy/RAG-privacy.
- Abstract(参考訳): Retrieval-augmented Generation(RAG)は、データプライバシが重要な関心事である、プロプライエタリデータとプライベートデータによる言語モデルを容易にする強力なテクニックである。
大規模な言語モデル(LLM)のプライバシーリスクは広範な研究によって実証されているが、RAG技術はLLM生成の固有の振る舞いを再構築する可能性がある。
本研究では,プライベート検索データベースを漏洩するRAGシステムの脆弱性を実証する,新たな攻撃手法による広範な実証研究を行う。
検索データに対するRAGの新たなリスクにもかかわらず,RAGがLPMのトレーニングデータの漏洩を軽減できることが明らかとなった。
本稿では,LLM とRAG システムビルダの双方にメリットがある検索拡張 LLM のプライバシ保護に関する新たな知見を提供する。
私たちのコードはhttps://github.com/phycholosogy/rag-privacyで利用可能です。
関連論文リスト
- Pirates of the RAG: Adaptively Attacking LLMs to Leak Knowledge Bases [11.101624331624933]
本稿では,RAGシステムにプライベート知識ベースを漏洩させるブラックボックス攻撃を提案する。
関連性に基づくメカニズムとアタッカーサイドのオープンソース LLM は、(隠された)知識ベースの大部分をリークする効果的なクエリの生成を好んでいる。
論文 参考訳(メタデータ) (2024-12-24T09:03:57Z) - PrivAgent: Agentic-based Red-teaming for LLM Privacy Leakage [78.33839735526769]
LLMは、慎重に構築された敵のプロンプトの下で私的情報を出力することに騙される可能性がある。
PrivAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。
論文 参考訳(メタデータ) (2024-12-07T20:09:01Z) - Privacy-Preserving Retrieval Augmented Generation with Differential Privacy [25.896416088293908]
検索拡張生成(RAG)は、外部知識ソースから直接関連する情報を提供することで、大規模言語モデル(LLM)を支援する。
RAGは、外部データソースから機密情報を漏洩するリスクを出力する。
本研究では、データプライバシの正式な保証である差分プライバシ(DP)の下でRAGを探索する。
論文 参考訳(メタデータ) (2024-12-06T01:20:16Z) - RAG-Thief: Scalable Extraction of Private Data from Retrieval-Augmented Generation Applications with Agent-based Attacks [18.576435409729655]
本稿では,RAG-Thiefと呼ばれるエージェントベースの自動プライバシ攻撃を提案する。
RAGアプリケーションで使用されるプライベートデータベースから、スケーラブルな量のプライベートデータを抽出することができる。
我々の発見は、現在のRAGアプリケーションにおけるプライバシー上の脆弱性を強調し、より強力な保護の必要性を強調します。
論文 参考訳(メタデータ) (2024-11-21T13:18:03Z) - Model Inversion Attacks: A Survey of Approaches and Countermeasures [59.986922963781]
近年、新しいタイプのプライバシ攻撃であるモデル反転攻撃(MIA)は、トレーニングのためのプライベートデータの機密性を抽出することを目的としている。
この重要性にもかかわらず、総合的な概要とMIAに関する深い洞察を提供する体系的な研究が欠如している。
本調査は、攻撃と防御の両方において、最新のMIA手法を要約することを目的としている。
論文 参考訳(メタデータ) (2024-11-15T08:09:28Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation [0.9217021281095907]
本稿では,RAGシステムに対して,メンバーシップ推論攻撃(MIA)を行うための効率的かつ使いやすい手法を提案する。
2つのベンチマークデータセットと複数の生成モデルを用いて攻撃の有効性を示す。
本研究は,RAGシステムにおけるセキュリティ対策の実施の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-30T19:46:36Z) - Privacy Implications of Retrieval-Based Language Models [26.87950501433784]
本稿では,検索に基づくLM,特に$k$NN-LMにおけるプライバシリスクに関する最初の研究について述べる。
パラメトリックモデルよりも、$k$NN-LMsの方がプライベートデータストアから個人情報をリークする可能性が高いことがわかりました。
論文 参考訳(メタデータ) (2023-05-24T08:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。