論文の概要: Not All Entities are Created Equal: A Dynamic Anonymization Framework for Privacy-Preserving Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2603.26074v1
- Date: Fri, 27 Mar 2026 05:03:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.355794
- Title: Not All Entities are Created Equal: A Dynamic Anonymization Framework for Privacy-Preserving Retrieval-Augmented Generation
- Title(参考訳): すべてのエンティティが平等に作成されるわけではない: プライバシ保護のための動的匿名化フレームワーク
- Authors: Xinyuan Zhu, Zekun Fei, Enye Wang, Ruiqi He, Zheli Liu,
- Abstract要約: TRIP-RAGという動的匿名化フレームワークを導入する。
ユーティリティをトレードオフしながら、非常に敏感なエンティティを識別する。
理論的解析と実験により,TRIP-RAGは文脈推論リスクを効果的に低減できることが示された。
- 参考スコア(独自算出の注目度): 7.905833478464377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) enhances the utility of Large Language Models (LLMs) by retrieving external documents. Since the knowledge databases in RAG are predominantly utilized via cloud services, private data in sensitive domains such as finance and healthcare faces the risk of personal information leakage. Thus, effectively anonymizing knowledge bases is crucial for privacy preservation. Existing studies equate the privacy risk of text to the linear superposition of the privacy risks of individual, isolated sensitive entities. The "one-size-fits-all" full processing of all sensitive entities severely degrades utility of LLM. To address this issue, we introduce a dynamic anonymization framework named TRIP-RAG. Based on context-aware entity quantification, this framework evaluates entities from the perspectives of marginal privacy risk, knowledge divergence, and topical relevance. It identifies highly sensitive entities while trading off utility, providing a feasible approach for variable-intensity privacy protection scenarios. Our theoretical analysis and experiments indicate that TRIP-RAG can effectively reduce context inference risks. Extensive experimental results demonstrate that, while maintaining privacy protection comparable to full anonymization, TRIP-RAG's Recall@k decreases by less than 35% compared to the original data, and the generation quality improves by up to 56% over existing baselines.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、外部文書を取得することで、LLM(Large Language Models)の有用性を高める。
RAGの知識データベースは主にクラウドサービスを介して利用されるため、金融や医療といった機密分野のプライベートデータは個人情報漏洩のリスクに直面している。
したがって、知識ベースを効果的に匿名化することは、プライバシー保護に不可欠である。
既存の研究は、テキストのプライバシーリスクを、個別に分離された機密エンティティのプライバシーリスクの線形重ね合わせに等価である。
センシティブな全てのエンティティの「ワンサイズフィットオール」の完全な処理は、LLMの実用性を著しく劣化させる。
この問題に対処するために, TRIP-RAG という動的匿名化フレームワークを導入する。
このフレームワークは、コンテキスト対応エンティティの定量化に基づいて、限界プライバシーリスク、知識のばらつき、トピックの関連性の観点からエンティティを評価する。
ユーティリティをトレードオフしながら、非常に敏感なエンティティを特定し、可変強度のプライバシ保護シナリオに対して実行可能なアプローチを提供する。
理論的解析と実験により,TRIP-RAGは文脈推論リスクを効果的に低減できることが示された。
大規模な実験結果によると、完全な匿名化に匹敵するプライバシ保護を維持しながら、TRIP-RAGのRecall@kは元のデータに比べて35%未満減少し、生成品質は既存のベースラインよりも最大56%向上している。
関連論文リスト
- SoK: Privacy Risks and Mitigations in Retrieval-Augmented Generation Systems [53.51921540246166]
Retrieval-Augmented Generation (RAG)技術は広く普及している。
RAGには、Large Language Models(LLM)とドメイン固有の知識ベースとの結合が含まれる。
RAGの普及は、データのプライバシに関する懸念を引き起こしている。
論文 参考訳(メタデータ) (2026-01-07T14:50:41Z) - Zero-Shot Privacy-Aware Text Rewriting via Iterative Tree Search [60.197239728279534]
クラウドベースのサービスにおける大規模言語モデル(LLM)は、重大なプライバシー上の懸念を引き起こしている。
既存のテキスト匿名化と、ルールベースのリアクションやスクラブのような非識別技術は、プライバシー保護とテキストの自然性と実用性のバランスをとるのに苦労することが多い。
我々は,一貫性,妥当性,自然性を保ちながら,秘密情報を体系的に難読化・削除するゼロショット木探索型反復文書き換えアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-25T07:23:52Z) - SynBench: A Benchmark for Differentially Private Text Generation [35.908455649647784]
医療や金融といった高度な分野におけるデータ駆動型意思決定のサポートは、データ共有にとって大きな障壁に直面している。
大規模言語モデルのような最近の生成AIモデルは、オープンドメインタスクにおいて印象的なパフォーマンスを示している。
しかし、彼らのセンシティブな環境への導入は、予測不可能な振る舞いと、プライバシー保護の不十分なデータセットによって制限されている。
論文 参考訳(メタデータ) (2025-09-18T03:57:50Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - RL-Finetuned LLMs for Privacy-Preserving Synthetic Rewriting [17.294176570269]
本稿では,複合報酬関数を用いた大規模言語モデル(LLM)を微調整する強化学習フレームワークを提案する。
プライバシ報酬は、セマンティックキューと、潜伏表現上の最小スパンニングツリー(MST)から派生した構造パターンを組み合わせる。
実験の結果,提案手法はセマンティック品質を劣化させることなく,著者の難読化とプライバシーの指標を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-25T04:38:19Z) - Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。
FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。
モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文 参考訳(メタデータ) (2025-04-27T04:26:02Z) - Privacy-Preserving Retrieval-Augmented Generation with Differential Privacy [25.896416088293908]
検索強化世代(RAG)は大規模言語モデル(LLM)を支援するのに特に有効である
RAGは、外部データソースから機密情報を漏洩するリスクを出力する。
機密情報を必要とするトークンに対してのみ、プライバシー予算を賢く費やすアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-06T01:20:16Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。