論文の概要: Differentially Private Synthetic Text Generation for Retrieval-Augmented Generation (RAG)
- arxiv url: http://arxiv.org/abs/2510.06719v1
- Date: Wed, 08 Oct 2025 07:15:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.346407
- Title: Differentially Private Synthetic Text Generation for Retrieval-Augmented Generation (RAG)
- Title(参考訳): 検索補助生成(RAG)のための微分プライベートテキスト生成
- Authors: Junki Mori, Kazuya Kakizaki, Taiki Miyagawa, Jun Sakuma,
- Abstract要約: DP-SynRAG は LLM を用いて差分プライベートな合成RAG データベースを生成するフレームワークである。
従来の方法とは異なり、合成テキストは一度作成すれば再利用できるため、繰り返し発生するノイズ注入や追加のプライバシーコストを回避することができる。
DP-SynRAGは、固定されたプライバシー予算を維持しつつ、最先端のプライベートRAGシステムに対して優れたパフォーマンスを達成することを示す実験である。
- 参考スコア(独自算出の注目度): 13.736991294264827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) enhances large language models (LLMs) by grounding them in external knowledge. However, its application in sensitive domains is limited by privacy risks. Existing private RAG methods typically rely on query-time differential privacy (DP), which requires repeated noise injection and leads to accumulated privacy loss. To address this issue, we propose DP-SynRAG, a framework that uses LLMs to generate differentially private synthetic RAG databases. Unlike prior methods, the synthetic text can be reused once created, thereby avoiding repeated noise injection and additional privacy costs. To preserve essential information for downstream RAG tasks, DP-SynRAG extends private prediction, which instructs LLMs to generate text that mimics subsampled database records in a DP manner. Experiments show that DP-SynRAG achieves superior performanec to the state-of-the-art private RAG systems while maintaining a fixed privacy budget, offering a scalable solution for privacy-preserving RAG.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大きな言語モデル(LLM)を拡張し、それらを外部知識で基礎付ける。
しかし、センシティブなドメインでの応用はプライバシー上のリスクによって制限されている。
既存のプライベートRAGメソッドは通常、クエリ時差分プライバシー(DP)に依存しており、これは繰り返しノイズ注入を必要とし、プライバシーの損失が蓄積する。
この問題に対処するために, LLMを用いて差分プライベートな合成RAGデータベースを生成するDP-SynRAGを提案する。
従来の方法とは異なり、合成テキストは一度作成すると再利用できるため、繰り返しのノイズ注入や追加のプライバシーコストを回避することができる。
下流RAGタスクに必要な情報を保存するため、DP-SynRAGはプライベート予測を拡張し、DP方式でサブサンプリングされたデータベースレコードを模倣するテキストを生成するようにLCMに指示する。
DP-SynRAGは、固定されたプライバシー予算を維持しながら、最先端のプライベートRAGシステムに対して優れたパフォーマンスを実現し、プライバシ保存RAGのためのスケーラブルなソリューションを提供する。
関連論文リスト
- DP-FedLoRA: Privacy-Enhanced Federated Fine-Tuning for On-Device Large Language Models [17.265217612125905]
DP-FedLoRAは、プライバシーを強化したファインチューニングフレームワークである。
LoRAベースの適応と差分プライバシーを通信効率のよい環境で統合する。
DP-FedLoRAは、強力なプライバシ保証を提供しながら、競争性能を提供することを示す。
論文 参考訳(メタデータ) (2025-09-11T02:16:34Z) - Privacy-Aware Decoding: Mitigating Privacy Leakage of Large Language Models in Retrieval-Augmented Generation [26.573578326262307]
プライバシ・アウェア・デコーディング(英: Privacy-Aware Decoding、PAD)は、ガウス雑音を発生時にトークンロジットに適応的に注入する軽量な推論時防御法である。
PADは信頼性ベースのスクリーニングを統合して、リスクの高いトークンを選択的に保護し、不要なノイズを最小限に抑える効率的な感度推定と、プライバシと生成品質のバランスをとるためのコンテキスト対応ノイズ校正を行う。
我々の研究は、機密ドメインにおける普遍的でスケーラブルなプライバシソリューションを実現するために、デコード戦略を通じて、RAGのプライバシリスクを軽減するための重要な一歩を踏み出しています。
論文 参考訳(メタデータ) (2025-08-05T05:22:13Z) - Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。
FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。
モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文 参考訳(メタデータ) (2025-04-27T04:26:02Z) - Privacy-Preserving Retrieval-Augmented Generation with Differential Privacy [25.896416088293908]
検索強化世代(RAG)は大規模言語モデル(LLM)を支援するのに特に有効である
RAGは、外部データソースから機密情報を漏洩するリスクを出力する。
機密情報を必要とするトークンに対してのみ、プライバシー予算を賢く費やすアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-06T01:20:16Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Provable Privacy with Non-Private Pre-Processing [56.770023668379615]
非プライベートなデータ依存前処理アルゴリズムによって生じる追加のプライバシーコストを評価するための一般的なフレームワークを提案する。
当社のフレームワークは,2つの新しい技術的概念を活用することにより,全体的なプライバシー保証の上限を確立する。
論文 参考訳(メタデータ) (2024-03-19T17:54:49Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。