論文の概要: $p^2$RAG: Privacy-Preserving RAG Service Supporting Arbitrary Top-$k$ Retrieval
- arxiv url: http://arxiv.org/abs/2603.14778v1
- Date: Mon, 16 Mar 2026 03:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.027353
- Title: $p^2$RAG: Privacy-Preserving RAG Service Supporting Arbitrary Top-$k$ Retrieval
- Title(参考訳): p^2$RAG: 任意のTop-k$ Retrievalをサポートするプライバシ保護RAGサービス
- Authors: Yulong Ming, Mingyue Wang, Jijia Yang, Cong Wang, Xiaohua Jia,
- Abstract要約: プライバシ保護のためのRAGサービスである$p2$RAGを提案する。
セキュリティのために、$p2$RAGは、データ所有者のデータベースとユーザのプロンプトを保護するために、2つの半正直でないサーバでシークレット共有を使用する。
- 参考スコア(独自算出の注目度): 26.612116219963095
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) enables large language models to use external knowledge, but outsourcing the RAG service raises privacy concerns for both data owners and users. Privacy-preserving RAG systems address these concerns by performing secure top-$k$ retrieval, which typically is secure sorting to identify relevant documents. However, existing systems face challenges supporting arbitrary $k$ due to their inability to change $k$, new security issues, or efficiency degradation with large $k$. This is a significant limitation because modern long-context models generally achieve higher accuracy with larger retrieval sets. We propose $p^2$RAG, a privacy-preserving RAG service that supports arbitrary top-$k$ retrieval. Unlike existing systems, $p^2$RAG avoids sorting candidate documents. Instead, it uses an interactive bisection method to determine the set of top-$k$ documents. For security, $p^2$RAG uses secret sharing on two semi-honest non-colluding servers to protect the data owner's database and the user's prompt. It enforces restrictions and verification to defend against malicious users and tightly bound the information leakage of the database. The experiments show that $p^2$RAG is 3--300$\times$ faster than the state-of-the-art PRAG for $k = 16$--$1024$.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、大規模な言語モデルで外部の知識を使用することを可能にするが、RAGサービスをアウトソーシングすることで、データ所有者とユーザ双方のプライバシ上の懸念が高まる。
プライバシ保護のRAGシステムは、これらの懸念に対処するために、セキュアなトップ$$検索を実行する。
しかし、既存のシステムは、$k$を変更することができないこと、新しいセキュリティ問題、大きな$k$で効率の低下のために、任意の$k$をサポートする課題に直面している。
現代の長期コンテキストモデルは一般により大きな検索セットで高い精度を達成するため、これは大きな制限となる。
プライバシ保護のためのRAGサービスである$p^2$RAGを提案する。
既存のシステムとは異なり、$p^2$RAGは候補文書のソートを避ける。
代わりに、インタラクティブな二分法を使用して、トップ$k$ドキュメントのセットを決定する。
セキュリティのために、$p^2$RAGは、データ所有者のデータベースとユーザのプロンプトを保護するために、2つの半正直でないサーバでシークレット共有を使用する。
悪意のあるユーザを保護し、データベースの情報漏洩を厳しく拘束するための、制限と検証を強制する。
実験によると、$p^2$RAG は最先端の PRAG よりも3-300$\times$ で、$k = 16$--1024$ である。
関連論文リスト
- Improving User Privacy in Personalized Generation: Client-Side Retrieval-Augmented Modification of Server-Side Generated Speculations [37.909483957959715]
パーソナライゼーションは、大規模言語モデル(LLM)出力を個々のユーザの好みやバックグラウンド知識と整合させることに不可欠である。
サーバサイドのLLMにプライベートプロファイルを公開せずに高品質なパーソナライズを実現する対話型フレームワークであるP3$を紹介した。
3つのパーソナライズされた質問応答データセットで構成される最近のベンチマークであるLaMP-QAの実験によると、$P3$は、非パーソナライズされたサーバサイドとパーソナライズされたクライアントサイドのベースラインの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-24T19:46:40Z) - HearSay Benchmark: Do Audio LLMs Leak What They Hear? [71.05839007164776]
本稿では,オーディオ大言語モデルがアコースティック・ボイスプリントのみを通じて,ユーザのプライバシーを不注意に漏洩するかどうかを考察する。
$textitHearSay$は、22,000以上の現実世界のオーディオクリップから構築された総合的なベンチマークである。
textbfSignificant Privacy Leakage$の実験は、3つの重要な発見をもたらす。
論文 参考訳(メタデータ) (2026-01-07T10:33:44Z) - Private-RAG: Answering Multiple Queries with LLMs while Keeping Your Data Private [21.980739918403344]
Retrieval-augmented Generation (RAG)は、外部コーパスからドキュメントを推論時に取得することで、大きな言語モデル(LLM)を強化する。
このコーパスが機密情報を含む場合、保護されていないRAGシステムは個人情報を漏洩するリスクがある。
本稿では、より実用的なマルチクエリ設定について検討し、2つのDP-RAGアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-10T21:12:32Z) - Evaluating Retrieval-Augmented Generation Systems on Unanswerable, Uncheatable, Realistic, Multi-hop Queries [53.99620546358492]
実世界のユースケースでは、複雑なクエリを持つRAGシステムが存在し、関連する情報がコーパスから欠落したり、不完全であったりすることが多い。
既存のRAGベンチマークは、マルチホップやスコープ外の質問に対して、現実的なタスクの複雑さを反映することはめったにない。
un$underlinec$heatable, $underliner$ealistic, $underlineu$nanswerable, $underlinem$ulti-hopの自動生成のための最初のパイプラインを提示する。
論文 参考訳(メタデータ) (2025-10-13T21:38:04Z) - MES-RAG: Bringing Multi-modal, Entity-Storage, and Secure Enhancements to RAG [65.0423152595537]
本稿では,エンティティ固有のクエリ処理を強化し,正確でセキュアで一貫した応答を提供するMES-RAGを提案する。
MES-RAGは、データアクセスの前に保護を適用してシステムの整合性を確保するための積極的なセキュリティ対策を導入している。
実験の結果,MES-RAGは精度とリコールの両方を著しく改善し,質問応答の安全性と有用性を向上する効果が示された。
論文 参考訳(メタデータ) (2025-03-17T08:09:42Z) - GeAR: Generation Augmented Retrieval [82.20696567697016]
本稿では,新しい方法であるtextbfGe$nerationを紹介する。
対照的な学習を通じて、グローバルなドキュメントクエリの類似性を改善すると同時に、よく設計されたフュージョンとデコードモジュールを統合する。
検索機として使用する場合、GeARはバイエンコーダよりも計算コストがかかることはない。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z) - RemoteRAG: A Privacy-Preserving LLM Cloud RAG Service [10.383191657228826]
ユーザクエリを保護するために、プライバシ保護クラウドRAGサービスを正式に定義したのは、当社が初めてです。
プライバシに関しては、ユーザクエリのプライバシリークと関連するドキュメントからのリークを特徴付けるために、$(n,epsilon)$-DistanceDPを導入します。
効率を上げるために、全文書から、$(n,epsilon)$-DistanceDPから生成される摂動埋め込みに関連する少数の選択された文書まで、検索範囲を限定する。
論文 参考訳(メタデータ) (2024-12-17T10:36:52Z) - MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation [60.04380907045708]
Retrieval-Augmented Generation (RAG)は、この問題に対処するための有望な戦略と考えられている。
我々は,グローバルメモリ拡張検索による新しいRAGフレームワークであるMemoRAGを提案する。
MemoRAGは、様々な長期コンテキスト評価タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-09T13:20:31Z) - Differential Privacy of Cross-Attention with Provable Guarantee [18.331374727331077]
我々は,クロスアテンションのプライバシセキュリティに理論的保証を与えるために,新たな差分プライバシ(DP)データ構造を設計する。
我々の結果は、ユーザが意図的にクロスアテンションシステムに攻撃できる適応的なクエリに対して堅牢である。
論文 参考訳(メタデータ) (2024-07-20T01:02:27Z) - SwiftAgg: Communication-Efficient and Dropout-Resistant Secure
Aggregation for Federated Learning with Worst-Case Security Guarantees [83.94234859890402]
我々は,フェデレート学習システムのための新しいセキュアアグリゲーションプロトコルSwiftAggを提案する。
中央サーバは、ローカルデータに基づいてトレーニングされた、$N$の分散ユーザのローカルモデルを集約する。
SwiftAggは、セキュリティ上の妥協なしに、通信オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2022-02-08T22:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。