論文の概要: SoK: Privacy Risks and Mitigations in Retrieval-Augmented Generation Systems
- arxiv url: http://arxiv.org/abs/2601.03979v1
- Date: Wed, 07 Jan 2026 14:50:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.208449
- Title: SoK: Privacy Risks and Mitigations in Retrieval-Augmented Generation Systems
- Title(参考訳): SoK:検索型世代システムにおけるプライバシリスクと緩和
- Authors: Andreea-Elena Bodea, Stephen Meisenbacher, Alexandra Klymenko, Florian Matthes,
- Abstract要約: Retrieval-Augmented Generation (RAG)技術は広く普及している。
RAGには、Large Language Models(LLM)とドメイン固有の知識ベースとの結合が含まれる。
RAGの普及は、データのプライバシに関する懸念を引き起こしている。
- 参考スコア(独自算出の注目度): 53.51921540246166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The continued promise of Large Language Models (LLMs), particularly in their natural language understanding and generation capabilities, has driven a rapidly increasing interest in identifying and developing LLM use cases. In an effort to complement the ingrained "knowledge" of LLMs, Retrieval-Augmented Generation (RAG) techniques have become widely popular. At its core, RAG involves the coupling of LLMs with domain-specific knowledge bases, whereby the generation of a response to a user question is augmented with contextual and up-to-date information. The proliferation of RAG has sparked concerns about data privacy, particularly with the inherent risks that arise when leveraging databases with potentially sensitive information. Numerous recent works have explored various aspects of privacy risks in RAG systems, from adversarial attacks to proposed mitigations. With the goal of surveying and unifying these works, we ask one simple question: What are the privacy risks in RAG, and how can they be measured and mitigated? To answer this question, we conduct a systematic literature review of RAG works addressing privacy, and we systematize our findings into a comprehensive set of privacy risks, mitigation techniques, and evaluation strategies. We supplement these findings with two primary artifacts: a Taxonomy of RAG Privacy Risks and a RAG Privacy Process Diagram. Our work contributes to the study of privacy in RAG not only by conducting the first systematization of risks and mitigations, but also by uncovering important considerations when mitigating privacy risks in RAG systems and assessing the current maturity of proposed mitigations.
- Abstract(参考訳): 大規模言語モデル(LLM)の継続的な約束、特に自然言語の理解と生成能力は、LLMのユースケースを特定し開発することへの関心を急速に高めている。
LLMの「知識」を補うために、レトリーバル強化世代(RAG)技術が広く普及している。
RAGの中核は、LLMとドメイン固有の知識ベースとの結合であり、ユーザ質問に対する応答の生成は、コンテキスト情報と最新の情報によって強化される。
RAGの普及は、データプライバシ、特に潜在的に機密性の高い情報を持つデータベースを利用する際に生じる固有のリスクに関する懸念を引き起こしている。
近年の多くの研究がRAGシステムにおけるプライバシーリスクのさまざまな側面を探求している。
RAGのプライバシリスクはどのようなもので、どのように測定と緩和が可能ですか?
本稿では,プライバシに対処するRAG研究の体系的な文献レビューを行い,その結果を総合的なプライバシーリスク,緩和技術,評価戦略に体系化する。
RAGプライバシ・リスクの分類とRAGプライバシ・プロセス・ダイアグラムの2つの主要なアーティファクトでこれらの知見を補完する。
我々の研究は、RAGにおけるプライバシの研究に寄与するだけでなく、RAGシステムにおけるプライバシリスクを軽減し、提案された緩和の現在の成熟度を評価する際にも重要な考慮事項を明らかにすることによっても貢献する。
関連論文リスト
- RAG Security and Privacy: Formalizing the Threat Model and Attack Surface [4.823988025629304]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)と外部文書検索を組み合わせて、より正確で基礎的な応答を生成する自然言語処理における新興のアプローチである。
既存の研究では、RAGがトレーニングデータ記憶や敵対的プロンプトを通じて機密情報を漏洩し、RAGシステムがこれらの脆弱性の多くを継承していることが示されている。
これらのリスクにもかかわらず、現在、RAGシステムの脅威状況を定義する公式なフレームワークは存在しない。
論文 参考訳(メタデータ) (2025-09-24T17:11:35Z) - Fine-Grained Privacy Extraction from Retrieval-Augmented Generation Systems via Knowledge Asymmetry Exploitation [15.985529058573912]
Retrieval-augmented Generation (RAG) システムは、外部知識ベースを統合することにより、大規模言語モデル(LLM)を強化する。
RAGシステムに対する既存のプライバシ攻撃は、データ漏洩を引き起こす可能性があるが、多くの場合、混合応答内で知識ベース由来の文を正確に分離することができない。
本稿では,RAGと標準LLMの知識非対称性を利用したブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T03:50:16Z) - Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。
FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。
モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文 参考訳(メタデータ) (2025-04-27T04:26:02Z) - Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey [92.36487127683053]
Retrieval-Augmented Generation (RAG)は、AIGC(AIGC)の課題に対処するために設計された高度な技術である。
RAGは信頼性と最新の外部知識を提供し、幻覚を減らし、幅広いタスクで関連するコンテキストを保証する。
RAGの成功と可能性にもかかわらず、最近の研究により、RAGパラダイムはプライバシーの懸念、敵対的攻撃、説明責任の問題など、新たなリスクももたらしていることが示されている。
論文 参考訳(メタデータ) (2025-02-08T06:50:47Z) - Pirates of the RAG: Adaptively Attacking LLMs to Leak Knowledge Bases [11.101624331624933]
本稿では,RAGシステムにプライベート知識ベースを漏洩させるブラックボックス攻撃を提案する。
関連性に基づくメカニズムとアタッカーサイドのオープンソース LLM は、(隠された)知識ベースの大部分をリークする効果的なクエリの生成を好んでいる。
論文 参考訳(メタデータ) (2024-12-24T09:03:57Z) - Feedback-Guided Extraction of Knowledge Base from Retrieval-Augmented LLM Applications [22.2065145193986]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の知識境界を拡張する
エージェントベースのブラックボックス攻撃であるCopyBreakRAGを提案する。
実験結果から,CopyBreakRAGは,チャンク抽出比において,最先端のブラックボックスアプローチを平均45%上回った。
論文 参考訳(メタデータ) (2024-11-21T13:18:03Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey [43.063650238194384]
大規模言語モデル(LLM)は,近年,大規模化と広範囲なトレーニングデータによるパフォーマンス向上を図っている。
機械学習モデルのトレーニングデータ記憶は、特にLLMに関して、モデルサイズに合わせてスケールする。
記憶されたテキストシーケンスは、LSMから直接リークされる可能性があり、データのプライバシに深刻な脅威をもたらす。
論文 参考訳(メタデータ) (2023-09-27T15:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。