論文の概要: Differentially Private Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2602.14374v1
- Date: Mon, 16 Feb 2026 00:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.033772
- Title: Differentially Private Retrieval-Augmented Generation
- Title(参考訳): 個人別検索機能強化ジェネレーション
- Authors: Tingting Tang, James Flemings, Yongqin Wang, Murali Annavaram,
- Abstract要約: Retrieval-augmented Generation (RAG) は、大規模言語モデル(LLM)における幻覚を減らすために広く使われているフレームワークである。
RAGは、データベースが医療記録や法的文書などの機密性のあるコーパスを含んでいる場合、深刻なプライバシー上のリスクを引き起こす。
本稿では,提案-テスト-リリースパラダイムを用いてDPを統合した新しいプライバシー保護型RAGアルゴリズムであるDP-KSAを提案する。
- 参考スコア(独自算出の注目度): 13.622078883013442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) is a widely used framework for reducing hallucinations in large language models (LLMs) on domain-specific tasks by retrieving relevant documents from a database to support accurate responses. However, when the database contains sensitive corpora, such as medical records or legal documents, RAG poses serious privacy risks by potentially exposing private information through its outputs. Prior work has demonstrated that one can practically craft adversarial prompts that force an LLM to regurgitate the augmented contexts. A promising direction is to integrate differential privacy (DP), a privacy notion that offers strong formal guarantees, into RAG systems. However, naively applying DP mechanisms into existing systems often leads to significant utility degradation. Particularly for RAG systems, DP can reduce the usefulness of the augmented contexts leading to increase risk of hallucination from the LLMs. Motivated by these challenges, we present DP-KSA, a novel privacy-preserving RAG algorithm that integrates DP using the propose-test-release paradigm. DP-KSA follows from a key observation that most question-answering (QA) queries can be sufficiently answered with a few keywords. Hence, DP-KSA first obtains an ensemble of relevant contexts, each of which will be used to generate a response from an LLM. We utilize these responses to obtain the most frequent keywords in a differentially private manner. Lastly, the keywords are augmented into the prompt for the final output. This approach effectively compresses the semantic space while preserving both utility and privacy. We formally show that DP-KSA provides formal DP guarantees on the generated output with respect to the RAG database. We evaluate DP-KSA on two QA benchmarks using three instruction-tuned LLMs, and our empirical results demonstrate that DP-KSA achieves a strong privacy-utility tradeoff.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は、データベースから関連文書を取り出して正確な応答をサポートすることで、大規模言語モデル(LLM)における幻覚を減らすために広く使われているフレームワークである。
しかしながら、データベースに医療記録や法的文書などの機密性のあるコーパスが含まれている場合、RAGはその出力を通じて個人情報を公開することにより、重大なプライバシー上のリスクを生じさせる。
以前の研究は、LLMが拡張されたコンテキストをゆがめるよう強制する敵のプロンプトを実質的に作ることができることを示した。
有望な方向性は、強力な正式な保証を提供するプライバシー概念である差分プライバシー(DP)をRAGシステムに統合することである。
しかし, DP機構を既存システムに適用すると, 実用性は著しく低下することが多い。
特にRAGシステムでは、DPは拡張コンテキストの有用性を低下させ、LLMからの幻覚のリスクを増大させる。
これらの課題に触発されたDP-KSAは,提案-テスト-リリースパラダイムを用いてDPを統合する新しいプライバシ保護RAGアルゴリズムである。
DP-KSAは、質問応答(QA)クエリのほとんどは、いくつかのキーワードで十分答えられる、というキーオブザーバーから従う。
したがって、DP-KSAはまず関連するコンテキストのアンサンブルを取得し、それぞれがLLMから応答を生成するために使用される。
我々はこれらの応答を利用して、最も頻繁なキーワードを微分プライベートな方法で取得する。
最後に、キーワードは最終出力のプロンプトに付加される。
このアプローチは、ユーティリティとプライバシの両方を保持しながら、意味空間を効果的に圧縮する。
DP-KSAがRAGデータベースに対して生成した出力に対して正式なDP保証を提供することを示す。
DP-KSAを3つの命令調整LDMを用いて2つのQAベンチマークで評価し,DP-KSAが強力なプライバシ・ユーティリティ・トレードオフを達成することを示す実証的な結果を得た。
関連論文リスト
- Generation-Augmented Generation: A Plug-and-Play Framework for Private Knowledge Injection in Large Language Models [48.65910216527897]
GAG(Generation-Augmented Generation)は、プライベートな専門知識を専門的なモダリティとして扱い、コンパクトな表現レベルインターフェースを通じてそれを注入する。
GAGは2つのベンチマークで強力なRAGベースラインよりも15.34%、14.86%の専門性能を向上した。
論文 参考訳(メタデータ) (2026-01-13T04:23:36Z) - Private-RAG: Answering Multiple Queries with LLMs while Keeping Your Data Private [21.980739918403344]
Retrieval-augmented Generation (RAG)は、外部コーパスからドキュメントを推論時に取得することで、大きな言語モデル(LLM)を強化する。
このコーパスが機密情報を含む場合、保護されていないRAGシステムは個人情報を漏洩するリスクがある。
本稿では、より実用的なマルチクエリ設定について検討し、2つのDP-RAGアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-10T21:12:32Z) - Differentially Private Synthetic Text Generation for Retrieval-Augmented Generation (RAG) [13.736991294264827]
DP-SynRAG は LLM を用いて差分プライベートな合成RAG データベースを生成するフレームワークである。
従来の方法とは異なり、合成テキストは一度作成すれば再利用できるため、繰り返し発生するノイズ注入や追加のプライバシーコストを回避することができる。
DP-SynRAGは、固定されたプライバシー予算を維持しつつ、最先端のプライベートRAGシステムに対して優れたパフォーマンスを達成することを示す実験である。
論文 参考訳(メタデータ) (2025-10-08T07:15:50Z) - Fine-Grained Privacy Extraction from Retrieval-Augmented Generation Systems via Knowledge Asymmetry Exploitation [15.985529058573912]
Retrieval-augmented Generation (RAG) システムは、外部知識ベースを統合することにより、大規模言語モデル(LLM)を強化する。
RAGシステムに対する既存のプライバシ攻撃は、データ漏洩を引き起こす可能性があるが、多くの場合、混合応答内で知識ベース由来の文を正確に分離することができない。
本稿では,RAGと標準LLMの知識非対称性を利用したブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T03:50:16Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - UniversalRAG: Retrieval-Augmented Generation over Corpora of Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。
本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。
マルチモーダル性にまたがる8つのベンチマークでUniversalRAGを検証する。
論文 参考訳(メタデータ) (2025-04-29T13:18:58Z) - DP-GTR: Differentially Private Prompt Protection via Group Text Rewriting [25.526993224085093]
既存の手法は主に文書レベルの書き換えに重点を置いており、リッチで多言語的なテキスト表現を無視している。
DP-GTRは、局所微分プライバシー(DP)とグループテキスト書き換えによる合成定理を利用する新しい3段階フレームワークである。
われわれのフレームワークは既存の書き換え技術と互換性があり、プライバシー保護を強化するためのプラグインとして機能している。
論文 参考訳(メタデータ) (2025-03-06T21:39:42Z) - How Private are DP-SGD Implementations? [61.19794019914523]
2種類のバッチサンプリングを使用する場合、プライバシ分析の間に大きなギャップがあることが示される。
その結果,2種類のバッチサンプリングでは,プライバシ分析の間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-03-26T13:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。