論文の概要: Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2504.19101v1
- Date: Sun, 27 Apr 2025 04:26:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.134098
- Title: Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation
- Title(参考訳): 局所検索強化世代のためのプライバシ保護フェデレーション埋め込み学習
- Authors: Qianren Mao, Qili Zhang, Hanwen Hao, Zhentao Han, Runhua Xu, Weifeng Jiang, Qi Hu, Zhijun Chen, Tyler Zhou, Bo Li, Yangqiu Song, Jin Dong, Jianxin Li, Philip S. Yu,
- Abstract要約: 我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。
FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。
モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
- 参考スコア(独自算出の注目度): 60.81109086640437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has recently emerged as a promising solution for enhancing the accuracy and credibility of Large Language Models (LLMs), particularly in Question & Answer tasks. This is achieved by incorporating proprietary and private data from integrated databases. However, private RAG systems face significant challenges due to the scarcity of private domain data and critical data privacy issues. These obstacles impede the deployment of private RAG systems, as developing privacy-preserving RAG systems requires a delicate balance between data security and data availability. To address these challenges, we regard federated learning (FL) as a highly promising technology for privacy-preserving RAG services. We propose a novel framework called Federated Retrieval-Augmented Generation (FedE4RAG). This framework facilitates collaborative training of client-side RAG retrieval models. The parameters of these models are aggregated and distributed on a central-server, ensuring data privacy without direct sharing of raw data. In FedE4RAG, knowledge distillation is employed for communication between the server and client models. This technique improves the generalization of local RAG retrievers during the federated learning process. Additionally, we apply homomorphic encryption within federated learning to safeguard model parameters and mitigate concerns related to data leakage. Extensive experiments conducted on the real-world dataset have validated the effectiveness of FedE4RAG. The results demonstrate that our proposed framework can markedly enhance the performance of private RAG systems while maintaining robust data privacy protection.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、特にQ&Aタスクにおいて、LLM(Large Language Models)の精度と信頼性を高めるための有望なソリューションとして最近登場した。
これは、統合データベースからプロプライエタリデータとプライベートデータを統合することで実現される。
しかし、プライベートなRAGシステムは、プライベートなドメインデータの不足と重要なデータプライバシの問題により、重大な課題に直面している。
これらの障害は、プライバシ保護のRAGシステムを開発する上で、データセキュリティとデータ可用性の微妙なバランスを必要とするため、プライベートなRAGシステムのデプロイを妨げる。
これらの課題に対処するため、我々はフェデレートラーニング(FL)をプライバシー保護のRAGサービスにとって有望な技術であると考えている。
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。
このフレームワークはクライアント側RAG検索モデルの協調トレーニングを容易にする。
これらのモデルのパラメータは集約され、中央サーバに分散されるため、生データを直接共有することなく、データのプライバシが保証される。
FedE4RAGでは、サーバモデルとクライアントモデル間の通信に知識蒸留が使用される。
この技術は、連合学習過程における局所的なRAGレトリバーの一般化を改善する。
さらに、モデルパラメータの保護とデータ漏洩に関する懸念を軽減するため、フェデレート学習における同型暗号化を適用した。
実世界のデータセットで実施された大規模な実験により、FedE4RAGの有効性が検証された。
その結果,提案するフレームワークは,堅牢なデータプライバシ保護を維持しつつ,プライベートなRAGシステムの性能を著しく向上させることができることがわかった。
関連論文リスト
- FedRand: Enhancing Privacy in Federated Learning with Randomized LoRA Subparameter Updates [58.18162789618869]
フェデレートラーニング(FL)は、モデルを分散的にトレーニングするための広く使われているフレームワークである。
我々はFedRandフレームワークを提案し、クライアントパラメータの完全な集合を開示するのを避ける。
我々はFedRandがMIAに対するロバスト性を改善することを、関連するベースラインと比較して実証的に検証する。
論文 参考訳(メタデータ) (2025-03-10T11:55:50Z) - FedEM: A Privacy-Preserving Framework for Concurrent Utility Preservation in Federated Learning [17.853502904387376]
Federated Learning (FL)は、分散クライアント間で、ローカルデータを共有せずにモデルの協調的なトレーニングを可能にし、分散システムにおけるプライバシの問題に対処する。
適応雑音注入による制御摂動を組み込んだ新しいアルゴリズムであるフェデレートエラー最小化(FedEM)を提案する。
ベンチマークデータセットの実験結果から、FedEMはプライバシのリスクを著しく低減し、モデルの正確性を保ち、プライバシ保護とユーティリティ保護の堅牢なバランスを達成している。
論文 参考訳(メタデータ) (2025-03-08T02:48:00Z) - RAG-Thief: Scalable Extraction of Private Data from Retrieval-Augmented Generation Applications with Agent-based Attacks [18.576435409729655]
本稿では,RAG-Thiefと呼ばれるエージェントベースの自動プライバシ攻撃を提案する。
RAGアプリケーションで使用されるプライベートデータベースから、スケーラブルな量のプライベートデータを抽出することができる。
我々の発見は、現在のRAGアプリケーションにおけるプライバシー上の脆弱性を強調し、より強力な保護の必要性を強調します。
論文 参考訳(メタデータ) (2024-11-21T13:18:03Z) - Lancelot: Towards Efficient and Privacy-Preserving Byzantine-Robust Federated Learning within Fully Homomorphic Encryption [10.685816010576918]
我々は,データプライバシを保ちながら悪意あるクライアント活動を保護するために,完全同型暗号化(FHE)を利用する,革新的で計算効率のよいBRFLフレームワークであるLancelotを提案する。
医用画像診断や広く使われている公開画像データセットを含む大規模なテストでは、Lancelotが既存の手法を著しく上回り、データのプライバシを維持しながら、処理速度を20倍以上に向上させています。
論文 参考訳(メタデータ) (2024-08-12T14:48:25Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation [0.9217021281095907]
本稿では,RAGシステムに対して,メンバーシップ推論攻撃(MIA)を行うための効率的かつ使いやすい手法を提案する。
2つのベンチマークデータセットと複数の生成モデルを用いて攻撃の有効性を示す。
本研究は,RAGシステムにおけるセキュリティ対策の実施の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-30T19:46:36Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z) - Free Lunch for Federated Remote Sensing Target Fine-Grained
Classification: A Parameter-Efficient Framework [23.933367972846312]
本稿では、PRFLと呼ばれるフェデレートラーニングに基づく新しいプライバシー保護TFGCフレームワークを提案する。
4つの公開データセットを活用することにより,従来のTFGCタスクにおけるPRFLの有効性を示す。
論文 参考訳(メタデータ) (2024-01-03T01:45:00Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - PS-FedGAN: An Efficient Federated Learning Framework Based on Partially
Shared Generative Adversarial Networks For Data Privacy [56.347786940414935]
分散計算のための効果的な学習パラダイムとして、フェデレートラーニング(FL)が登場した。
本研究は,部分的なGANモデル共有のみを必要とする新しいFLフレームワークを提案する。
PS-FedGANと名付けられたこの新しいフレームワークは、異種データ分散に対処するためのGANリリースおよびトレーニングメカニズムを強化する。
論文 参考訳(メタデータ) (2023-05-19T05:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。