論文の概要: SD-RAG: A Prompt-Injection-Resilient Framework for Selective Disclosure in Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2601.11199v1
- Date: Fri, 16 Jan 2026 11:22:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.468554
- Title: SD-RAG: A Prompt-Injection-Resilient Framework for Selective Disclosure in Retrieval-Augmented Generation
- Title(参考訳): SD-RAG:Retrieval-Augmented Generationにおける選択開示のためのPrompt-Injection-Resilient Framework
- Authors: Aiman Al Masoud, Marco Arazzi, Antonino Nocera,
- Abstract要約: Retrieval-Augmented Generation (RAG) は,Large Language Models (LLMs) の生成能力と,大規模データコレクション上の効率的な検索機構によって得られた知識を組み合わせる能力によって,注目されている。
現在、既存のアプローチの大半は、生成モデルに直接機密情報やアクセス制御情報を公開するリスクを見落としている。
本稿では,SD-RAGと呼ばれる新手法を提案する。SD-RAGは,生成プロセス自体からセキュリティとプライバシの制約を分離する。
- 参考スコア(独自算出の注目度): 3.797867929356259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has attracted significant attention due to its ability to combine the generative capabilities of Large Language Models (LLMs) with knowledge obtained through efficient retrieval mechanisms over large-scale data collections. Currently, the majority of existing approaches overlook the risks associated with exposing sensitive or access-controlled information directly to the generation model. Only a few approaches propose techniques to instruct the generative model to refrain from disclosing sensitive information; however, recent studies have also demonstrated that LLMs remain vulnerable to prompt injection attacks that can override intended behavioral constraints. For these reasons, we propose a novel approach to Selective Disclosure in Retrieval-Augmented Generation, called SD-RAG, which decouples the enforcement of security and privacy constraints from the generation process itself. Rather than relying on prompt-level safeguards, SD-RAG applies sanitization and disclosure controls during the retrieval phase, prior to augmenting the language model's input. Moreover, we introduce a semantic mechanism to allow the ingestion of human-readable dynamic security and privacy constraints together with an optimized graph-based data model that supports fine-grained, policy-aware retrieval. Our experimental evaluation demonstrates the superiority of SD-RAG over baseline existing approaches, achieving up to a $58\%$ improvement in the privacy score, while also showing a strong resilience to prompt injection attacks targeting the generative model.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は,Large Language Models (LLMs) の生成能力と,大規模データコレクション上の効率的な検索機構によって得られた知識を組み合わせる能力によって,注目されている。
現在、既存のアプローチの大半は、生成モデルに直接機密情報やアクセス制御情報を公開するリスクを見落としている。
近年の研究では、LLMは意図した行動制約をオーバーライドできるインジェクション攻撃に対して脆弱であり続けることが示されている。
これらの理由から,我々はSD-RAGと呼ばれる新手法を提案し,セキュリティとプライバシの制約を生成プロセス自体から分離する。
SD-RAGは、迅速なレベルのセーフガードに頼るのではなく、検索フェーズ中に、言語モデルの入力を増やす前に、衛生と開示の制御を適用する。
さらに、人間の読みやすい動的セキュリティとプライバシ制約の取り込みを可能にするセマンティックメカニズムと、きめ細かなポリシー対応検索をサポートする最適化されたグラフベースのデータモデルを導入する。
実験により, SD-RAGが既存のアプローチよりも優れていることを示すとともに, プライバシスコアを最大5,8 %向上させるとともに, 生成モデルをターゲットにしたインジェクション攻撃を誘導する強いレジリエンスを示す。
関連論文リスト
- The Hidden Cost of Modeling P(X): Vulnerability to Membership Inference Attacks in Generative Text Classifiers [6.542294761666199]
メンバーシップ推論攻撃(MIA)は、モデルのトレーニングデータセットに特定のサンプルが含まれているかどうかを敵が判断できるようにすることで、重要なプライバシー上の脅威となる。
結合可能性$P(X,Y)$を明示的にモデル化した完全生成型分類器は、メンバシップリークに対して最も脆弱であることを示す。
論文 参考訳(メタデータ) (2025-10-17T18:09:33Z) - On the MIA Vulnerability Gap Between Private GANs and Diffusion Models [51.53790101362898]
GAN(Generative Adversarial Networks)と拡散モデルが高品質な画像合成のための主要なアプローチとして登場している。
差分自己生成モデルが直面するプライバシーリスクの統一的および実証的分析について述べる。
論文 参考訳(メタデータ) (2025-09-03T14:18:22Z) - Privacy-Preserving Federated Embedding Learning for Localized Retrieval-Augmented Generation [60.81109086640437]
我々はFedE4RAG(Federated Retrieval-Augmented Generation)と呼ばれる新しいフレームワークを提案する。
FedE4RAGはクライアント側RAG検索モデルの協調トレーニングを容易にする。
モデルパラメータの保護にフェデレート学習の準同型暗号化を適用する。
論文 参考訳(メタデータ) (2025-04-27T04:26:02Z) - Retrievals Can Be Detrimental: A Contrastive Backdoor Attack Paradigm on Retrieval-Augmented Diffusion Models [37.66349948811172]
拡散モデル (DM) は近年, 顕著な生成能力を示した。
近年の研究では、高度な検索・拡張生成(RAG)技術によってDMが強化されている。
RAGは、モデルパラメータを著しく低減しつつ、DMの生成と一般化能力を向上させる。
大きな成功にもかかわらず、RAGはさらなる調査を保証できる新しいセキュリティ問題を導入するかもしれない。
論文 参考訳(メタデータ) (2025-01-23T02:42:28Z) - Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models [21.01313168005792]
我々は、意見操作のためのブラックボックス攻撃に直面した場合、検索強化生成(RAG)モデルの脆弱性を明らかにする。
このような攻撃がユーザの認知と意思決定に与える影響について検討する。
論文 参考訳(メタデータ) (2024-07-18T17:55:55Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Mitigating Query-Flooding Parameter Duplication Attack on Regression
Models with High-Dimensional Gaussian Mechanism [12.017509695576377]
差分プライバシー(DP)はこの攻撃を緩和する有望な手法と考えられている。
提案手法では,クエリフローディングパラメータ重複(QPD)攻撃によってモデル情報を推測できることを示す。
未承認情報開示を防止するための新しい高次元ガウス(HDG)機構を提案する。
論文 参考訳(メタデータ) (2020-02-06T01:47:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。