論文の概要: Private-RAG: Answering Multiple Queries with LLMs while Keeping Your Data Private
- arxiv url: http://arxiv.org/abs/2511.07637v1
- Date: Wed, 12 Nov 2025 01:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.406826
- Title: Private-RAG: Answering Multiple Queries with LLMs while Keeping Your Data Private
- Title(参考訳): Private-RAG: データをプライベートにしながら、複数のクエリをLLMで答える
- Authors: Ruihan Wu, Erchi Wang, Zhiyuan Zhang, Yu-Xiang Wang,
- Abstract要約: Retrieval-augmented Generation (RAG)は、外部コーパスからドキュメントを推論時に取得することで、大きな言語モデル(LLM)を強化する。
このコーパスが機密情報を含む場合、保護されていないRAGシステムは個人情報を漏洩するリスクがある。
本稿では、より実用的なマルチクエリ設定について検討し、2つのDP-RAGアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 21.980739918403344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) enhances large language models (LLMs) by retrieving documents from an external corpus at inference time. When this corpus contains sensitive information, however, unprotected RAG systems are at risk of leaking private information. Prior work has introduced differential privacy (DP) guarantees for RAG, but only in single-query settings, which fall short of realistic usage. In this paper, we study the more practical multi-query setting and propose two DP-RAG algorithms. The first, MURAG, leverages an individual privacy filter so that the accumulated privacy loss only depends on how frequently each document is retrieved rather than the total number of queries. The second, MURAG-ADA, further improves utility by privately releasing query-specific thresholds, enabling more precise selection of relevant documents. Our experiments across multiple LLMs and datasets demonstrate that the proposed methods scale to hundreds of queries within a practical DP budget ($\varepsilon\approx10$), while preserving meaningful utility.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、外部コーパスからドキュメントを推論時に取得することで、大きな言語モデル(LLM)を強化する。
しかし、このコーパスが機密情報を含む場合、保護されていないRAGシステムは個人情報を漏洩するリスクがある。
以前の作業では、RAGの差分プライバシ(DP)保証が導入されていたが、実際には使用されていないシングルクエリ設定に限られていた。
本稿では、より実用的なマルチクエリ設定について検討し、2つのDP-RAGアルゴリズムを提案する。
1つ目は、個別のプライバシフィルタを利用して、蓄積されたプライバシ損失は、クエリの総数ではなく、各ドキュメントがどれだけ頻度で取得されるかにのみ依存する。
2つめのMuraG-ADAは、クエリ固有のしきい値をプライベートにリリースすることで実用性をさらに向上し、関連ドキュメントのより正確な選択を可能にする。
提案手法は,実用的なDP予算(\varepsilon\approx10$)内で数百のクエリにスケールし,有意義なユーティリティを保っていることを示す。
関連論文リスト
- Differentially Private Synthetic Text Generation for Retrieval-Augmented Generation (RAG) [13.736991294264827]
DP-SynRAG は LLM を用いて差分プライベートな合成RAG データベースを生成するフレームワークである。
従来の方法とは異なり、合成テキストは一度作成すれば再利用できるため、繰り返し発生するノイズ注入や追加のプライバシーコストを回避することができる。
DP-SynRAGは、固定されたプライバシー予算を維持しつつ、最先端のプライベートRAGシステムに対して優れたパフォーマンスを達成することを示す実験である。
論文 参考訳(メタデータ) (2025-10-08T07:15:50Z) - MAGPIE: A dataset for Multi-AGent contextual PrIvacy Evaluation [54.410825977390274]
LLMエージェントのコンテキストプライバシを評価するための既存のベンチマークは、主にシングルターン、低複雑さタスクを評価する。
まず、15ドメインにわたる158のリアルタイムハイテイクシナリオからなるベンチマーク-MAGPIEを示す。
次に、コンテキスト的にプライベートなデータに対する理解と、ユーザのプライバシを侵害することなくコラボレーションする能力に基づいて、最先端のLCMを評価します。
論文 参考訳(メタデータ) (2025-06-25T18:04:25Z) - RemoteRAG: A Privacy-Preserving LLM Cloud RAG Service [10.383191657228826]
ユーザクエリを保護するために、プライバシ保護クラウドRAGサービスを正式に定義したのは、当社が初めてです。
プライバシに関しては、ユーザクエリのプライバシリークと関連するドキュメントからのリークを特徴付けるために、$(n,epsilon)$-DistanceDPを導入します。
効率を上げるために、全文書から、$(n,epsilon)$-DistanceDPから生成される摂動埋め込みに関連する少数の選択された文書まで、検索範囲を限定する。
論文 参考訳(メタデータ) (2024-12-17T10:36:52Z) - Privacy-Preserving Retrieval-Augmented Generation with Differential Privacy [25.896416088293908]
検索強化世代(RAG)は大規模言語モデル(LLM)を支援するのに特に有効である
RAGは、外部データソースから機密情報を漏洩するリスクを出力する。
機密情報を必要とするトークンに対してのみ、プライバシー予算を賢く費やすアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-06T01:20:16Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - How Private are DP-SGD Implementations? [61.19794019914523]
2種類のバッチサンプリングを使用する場合、プライバシ分析の間に大きなギャップがあることが示される。
その結果,2種類のバッチサンプリングでは,プライバシ分析の間に大きなギャップがあることが判明した。
論文 参考訳(メタデータ) (2024-03-26T13:02:43Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - MILL: Mutual Verification with Large Language Models for Zero-Shot Query Expansion [39.24969189479343]
本稿では,大規模言語モデル(LLM)を相互検証に用いるゼロショットクエリ拡張フレームワークを提案する。
提案手法は完全にゼロショットであり,その有効性を示すために3つの公開ベンチマークデータセットに関する広範な実験を行った。
論文 参考訳(メタデータ) (2023-10-29T16:04:10Z) - Individual Privacy Accounting for Differentially Private Stochastic Gradient Descent [69.14164921515949]
DP-SGDで訓練されたモデルをリリースする際の個々の事例に対するプライバシー保証を特徴付ける。
ほとんどの例では、最悪のケースよりも強力なプライバシー保証を享受しています。
これは、モデルユーティリティの観点からは守られないグループが同時に、より弱いプライバシー保証を経験することを意味する。
論文 参考訳(メタデータ) (2022-06-06T13:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。