論文の概要: A Case Study on the Impact of Anonymization Along the RAG Pipeline
- arxiv url: http://arxiv.org/abs/2604.15958v1
- Date: Fri, 17 Apr 2026 11:23:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.891122
- Title: A Case Study on the Impact of Anonymization Along the RAG Pipeline
- Title(参考訳): RAGパイプラインにおける匿名化の影響に関する事例研究
- Authors: Andreea-Elena Bodea, Stephen Meisenbacher, Florian Matthes,
- Abstract要約: 匿名化技術を用いて、個人識別可能な情報(PII)やその他の機密マーカーを基礎データから除去することは、RAG管理者にとって実用的で賢明な行動経路である。
我々は、RAGパイプラインに沿った2つの重要な点、すなわちデータセットと生成された回答における匿名化の影響を系統的かつ実証的に測定した。
プライバシ・ユーティリティのトレードオフの違いは、匿名化の場所によって観察できることを示し、RAGにおけるプライバシーリスク軽減の意義を示す。
- 参考スコア(独自算出の注目度): 16.51235052027641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the considerable promise of Retrieval-Augmented Generation (RAG), many real-world use cases may create privacy concerns, where the purported utility of RAG-enabled insights comes at the risk of exposing private information to either the LLM or the end user requesting the response. As a potential mitigation, using anonymization techniques to remove personally identifiable information (PII) and other sensitive markers in the underlying data represents a practical and sensible course of action for RAG administrators. Despite a wealth of literature on the topic, no works consider the placement of anonymization along the RAG pipeline, i.e., asking the question, where should anonymization happen? In this case study, we systematically and empirically measure the impact of anonymization at two important points along the RAG pipeline: the dataset and generated answer. We show that differences in privacy-utility trade-offs can be observed depending on where anonymization took place, demonstrating the significance of privacy risk mitigation placement in RAG.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) のかなりの約束にもかかわらず、現実の多くのユースケースはプライバシー上の懸念を生じさせる可能性がある。
潜在的な緩和として、匿名化技術を用いて個人識別可能な情報(PII)やその他の機密マーカーを基本データから除去することは、RAG管理者にとって実用的で賢明な行動の歩みを示す。
このトピックに関する豊富な文献にもかかわらず、RAGパイプラインに沿った匿名化の配置、すなわち、匿名化をどこで行うべきかという質問を考慮に入れている著作は存在しない。
本稿では,RAGパイプラインに沿った2つの重要な点(データセットと生成された回答)において,匿名化の影響を系統的かつ実証的に測定する。
プライバシ・ユーティリティのトレードオフの違いは、匿名化の場所によって観察できることを示し、RAGにおけるプライバシーリスク軽減の意義を示す。
関連論文リスト
- Not All Entities are Created Equal: A Dynamic Anonymization Framework for Privacy-Preserving Retrieval-Augmented Generation [7.905833478464377]
TRIP-RAGという動的匿名化フレームワークを導入する。
ユーティリティをトレードオフしながら、非常に敏感なエンティティを識別する。
理論的解析と実験により,TRIP-RAGは文脈推論リスクを効果的に低減できることが示された。
論文 参考訳(メタデータ) (2026-03-27T05:03:24Z) - Neural Gate: Mitigating Privacy Risks in LVLMs via Neuron-Level Gradient Gating [71.55435880263238]
ニューラルゲート(Neural Gate)は,ニューロンレベルのモデル編集によってプライバシリスクを軽減する新しい手法である。
本手法は,プライバシ関連質問に対する拒否率を高めることにより,モデルのプライバシ保護を改善する。
論文 参考訳(メタデータ) (2026-03-13T03:03:20Z) - A Systemic Evaluation of Multimodal RAG Privacy [28.429497070260027]
我々は、標準モデルプロンプトを通して観察されるmRAGパイプラインに固有のプライバシーリスクを分析する。
本研究は,mRAGのプライバシー保護機構の必要性と今後の研究のモチベーションを明らかにするものである。
論文 参考訳(メタデータ) (2026-01-25T01:37:01Z) - SoK: Privacy Risks and Mitigations in Retrieval-Augmented Generation Systems [53.51921540246166]
Retrieval-Augmented Generation (RAG)技術は広く普及している。
RAGには、Large Language Models(LLM)とドメイン固有の知識ベースとの結合が含まれる。
RAGの普及は、データのプライバシに関する懸念を引き起こしている。
論文 参考訳(メタデータ) (2026-01-07T14:50:41Z) - Fine-Grained Privacy Extraction from Retrieval-Augmented Generation Systems via Knowledge Asymmetry Exploitation [15.985529058573912]
Retrieval-augmented Generation (RAG) システムは、外部知識ベースを統合することにより、大規模言語モデル(LLM)を強化する。
RAGシステムに対する既存のプライバシ攻撃は、データ漏洩を引き起こす可能性があるが、多くの場合、混合応答内で知識ベース由来の文を正確に分離することができない。
本稿では,RAGと標準LLMの知識非対称性を利用したブラックボックス攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T03:50:16Z) - Self-Refining Language Model Anonymizers via Adversarial Distillation [48.280759014096354]
本稿では,Self-refining Anonymization with Language Model (SEAL)を紹介する。
SEALは、推論時に外部モデルに頼ることなく効果的な匿名化を行うために、小型言語モデル(SLM)をトレーニングするための新しい蒸留フレームワークである。
合成個人プロファイルとテキストコメントのデータセットであるSynthPAIの実験は、SEALでトレーニングされたSLMが匿名化機能を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T08:21:27Z) - A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。
本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文 参考訳(メタデータ) (2025-04-28T01:16:27Z) - The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented
Generation (RAG) [56.67603627046346]
Retrieval-augmented Generation (RAG)は、プロプライエタリおよびプライベートデータによる言語モデルを容易にする強力な技術である。
本研究では,プライベート検索データベースの漏洩に対するRAGシステムの脆弱性を実証する,新たな攻撃手法による実証的研究を行う。
論文 参考訳(メタデータ) (2024-02-23T18:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。