論文の概要: Silent Leaks: Implicit Knowledge Extraction Attack on RAG Systems through Benign Queries
- arxiv url: http://arxiv.org/abs/2505.15420v1
- Date: Wed, 21 May 2025 12:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.612804
- Title: Silent Leaks: Implicit Knowledge Extraction Attack on RAG Systems through Benign Queries
- Title(参考訳): Silent Leaks: 良質なクエリによるRAGシステムに対する暗黙の知識抽出攻撃
- Authors: Yuhao Wang, Wenjie Qu, Yanze Jiang, Zichen Liu, Yue Liu, Shengfang Zhai, Yinpeng Dong, Jiaheng Zhang,
- Abstract要約: 本稿では,良質なクエリを通じてRAGシステム上で知識抽出を行うImplicit Knowledge extract Attack (IKEA)を紹介する。
IKEAはまずアンカーの概念を活用し、自然な外観でクエリを生成し、2つのメカニズムを設計し、RAGのプライバシーに関する知識を徹底的に「明らかに」する。
各種防御下でのイケアの有効性を実証し, 抽出効率の80%以上, 攻撃成功率の90%以上を基準線を超える実験を行った。
- 参考スコア(独自算出の注目度): 27.665853244467463
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems enhance large language models (LLMs) by incorporating external knowledge bases, but they are vulnerable to privacy risks from data extraction attacks. Existing extraction methods typically rely on malicious inputs such as prompt injection or jailbreaking, making them easily detectable via input- or output-level detection. In this paper, we introduce Implicit Knowledge Extraction Attack (IKEA), which conducts knowledge extraction on RAG systems through benign queries. IKEA first leverages anchor concepts to generate queries with the natural appearance, and then designs two mechanisms to lead to anchor concept thoroughly 'explore' the RAG's privacy knowledge: (1) Experience Reflection Sampling, which samples anchor concepts based on past query-response patterns to ensure the queries' relevance to RAG documents; (2) Trust Region Directed Mutation, which iteratively mutates anchor concepts under similarity constraints to further exploit the embedding space. Extensive experiments demonstrate IKEA's effectiveness under various defenses, surpassing baselines by over 80% in extraction efficiency and 90% in attack success rate. Moreover, the substitute RAG system built from IKEA's extractions consistently outperforms those based on baseline methods across multiple evaluation tasks, underscoring the significant privacy risk in RAG systems.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、外部知識ベースを組み込むことで、大きな言語モデル(LLM)を強化するが、データ抽出攻撃によるプライバシーリスクに弱い。
既存の抽出方法は、通常、プロンプトインジェクションやジェイルブレイクのような悪意のある入力に依存しており、入力レベルの検出や出力レベルの検出によって容易に検出できる。
本稿では,固有クエリによるRAGシステム上で知識抽出を行うImplicit Knowledge extract Attack (IKEA)を提案する。
IKEAはまず、アンカーの概念を利用して自然な外観でクエリを生成し、2つのメカニズムを設計し、次に、RAGのプライバシ知識を徹底的に「明らかに」アンカーの概念に導く。(1)クエリの応答パターンに基づいてアンカーの概念をサンプリングしてRAG文書に関連性を保証するエクスペリエンスリフレクションサンプリング、(2)類似性制約の下でアンカーの概念を反復的に変更し、埋め込み空間をさらに活用するトラストリージョンディレクテッドミューテーション。
各種防御下でのIKEAの有効性は, 抽出効率の80%以上, 攻撃成功率の90%を超えている。
さらに、IKEAの抽出から構築された代替RAGシステムは、複数の評価タスクにまたがるベースライン手法に基づくシステムよりも一貫して優れており、RAGシステムにおける重大なプライバシーリスクを浮き彫りにしている。
関連論文リスト
- Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation [71.32665836294103]
マルチモーダル検索強化世代(RAG)は視覚言語モデル(VLM)の視覚的推論能力を向上させる
本研究では,マルチモーダルRAGシステムに対する最初の知識中毒攻撃であるtextitPoisoned-MRAGを紹介する。
論文 参考訳(メタデータ) (2025-03-08T15:46:38Z) - TrustRAG: Enhancing Robustness and Trustworthiness in RAG [31.231916859341865]
TrustRAGは、世代ごとに取得される前に、妥協されたコンテンツと無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、既存のアプローチと比較して、検索精度、効率、攻撃抵抗を大幅に改善している。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - Pirates of the RAG: Adaptively Attacking LLMs to Leak Knowledge Bases [11.101624331624933]
本稿では,RAGシステムにプライベート知識ベースを漏洩させるブラックボックス攻撃を提案する。
関連性に基づくメカニズムとアタッカーサイドのオープンソース LLM は、(隠された)知識ベースの大部分をリークする効果的なクエリの生成を好んでいる。
論文 参考訳(メタデータ) (2024-12-24T09:03:57Z) - Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。
RAGシステムは、検索データベースに注入された悪意のあるパスが、モデルを誤誘導し、事実的に誤ったアウトプットを発生させるような、敵の毒殺攻撃に弱い。
本稿では,RAGシステムの検索と生成の両要素について検討し,攻撃に対するロバスト性を高める方法について考察する。
論文 参考訳(メタデータ) (2024-12-21T17:31:52Z) - Unanswerability Evaluation for Retrieval Augmented Generation [74.3022365715597]
UAEval4RAGは、RAGシステムが解答不能なクエリを効果的に処理できるかどうかを評価するために設計されたフレームワークである。
我々は、6つの未解決カテゴリを持つ分類を定義し、UAEval4RAGは、多様で挑戦的なクエリを自動的に合成する。
論文 参考訳(メタデータ) (2024-12-16T19:11:55Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Generating Is Believing: Membership Inference Attacks against Retrieval-Augmented Generation [9.73190366574692]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚や知識の安定化といった問題を緩和する手法である。
既存の研究では、RAGのLCMに関連する潜在的なプライバシーリスクが示されている。
S$2$MIA, underlineMembership underlineInference underlineAttack, which uses the underlineSemantic underlineSimilarity between a given sample and the content generated by the RAG system。
論文 参考訳(メタデータ) (2024-06-27T14:58:38Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Free Lunch for Generating Effective Outlier Supervision [46.37464572099351]
本稿では, ほぼ現実的な外乱監視を実現するための超効率的な手法を提案する。
提案したtextttBayesAug は,従来の方式に比べて偽陽性率を 12.50% 以上削減する。
論文 参考訳(メタデータ) (2023-01-17T01:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。