論文の概要: CleanBase: Detecting Malicious Documents in RAG Knowledge Databases
- arxiv url: http://arxiv.org/abs/2605.00460v1
- Date: Fri, 01 May 2026 06:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.884639
- Title: CleanBase: Detecting Malicious Documents in RAG Knowledge Databases
- Title(参考訳): CleanBase:RAG知識データベースにおける悪意のあるドキュメントの検出
- Authors: Weifei Jin, Xilong Wang, Wei Zou, Jinyuan Jia, Neil Gong,
- Abstract要約: Retrieval-augmented Generation (RAG) はインジェクション攻撃に弱い。
CleanBaseは、知識データベース内で悪意のあるドキュメントを検出する方法である。
- 参考スコア(独自算出の注目度): 22.879630824002074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) is vulnerable to prompt injection attacks, in which an adversary inserts malicious documents containing carefully crafted injected prompts into the knowledge database. When a user issues a question targeted by the attack, the RAG system may retrieve these malicious documents, whose injected prompts mislead it into generating attacker-specified answers, thereby compromising the integrity of the RAG system. In this work, we propose CleanBase, a method to detect malicious documents within a knowledge database. Our key insight is that malicious documents crafted for the same attack-targeted questions often exhibit high semantic similarity, as attackers deliberately make them consistent to improve attack success rates. Accordingly, CleanBase constructs a similarity graph over the knowledge database, where each node represents a document and an edge connects two nodes if their semantic similarity--computed using an embedding model--exceeds a statistically determined threshold. Due to their inherent similarity, malicious documents tend to form cliques within this graph. CleanBase detects such cliques and flags the corresponding documents as malicious. We theoretically derive upper bounds on CleanBase's false positive and false negative rates and empirically validate its effectiveness. Experimental results across multiple datasets and prompt injection attacks demonstrate that CleanBase accurately detects malicious documents and effectively safeguards RAG systems. Our source code is available at https://github.com/WeifeiJin/CleanBase.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) はインジェクション攻撃に対して脆弱であり、敵が慎重に作成されたインジェクションプロンプトを含む悪意のある文書をナレッジデータベースに挿入する。
ユーザが攻撃対象の質問を発行すると、RAGシステムはこれらの悪意のある文書を検索し、インジェクションされたプロンプトによって攻撃者特定回答が生成され、RAGシステムの整合性を損なう。
本研究では,知識データベース内で悪意のある文書を検出する手法であるCleanBaseを提案する。
私たちの重要な洞察は、同じ攻撃対象の質問のために作られた悪意のあるドキュメントは、攻撃者が意図的に攻撃の成功率を改善するために一貫性を持たせるため、しばしば意味的な類似性を示すということです。
そこで、CleanBaseは知識データベース上に類似性グラフを構築し、それぞれのノードが文書を表現し、エッジが2つのノードを接続する。
その固有の類似性のため、悪意のある文書は、このグラフの中に斜めを形成する傾向がある。
CleanBaseはそのようなcliqueを検出し、対応するドキュメントを悪意のあるものとしてフラグする。
理論的には、CleanBaseの偽陽性と偽陰性率の上限を導出し、その有効性を実証的に検証する。
複数のデータセットにわたる実験結果とインジェクション攻撃により、CleanBaseは悪意のあるドキュメントを正確に検出し、RAGシステムを効果的に保護することを示した。
ソースコードはhttps://github.com/WeifeiJin/CleanBase.comで公開されています。
関連論文リスト
- WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents [34.909802797979324]
本稿では,Webエージェントを標的としたインジェクション攻撃を検出するための総合的なベンチマーク研究を行う。
悪意のあるサンプルと良心的なサンプルの両方を含むデータセットを構築します。
次に、テキストベースと画像ベースの両方の検出方法を体系化する。
論文 参考訳(メタデータ) (2025-10-01T18:34:06Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - On the Vulnerability of Applying Retrieval-Augmented Generation within Knowledge-Intensive Application Domains [32.71308102835446]
Retrieval-Augmented Generation (RAG)は、知識集約ドメインにおける大規模言語モデル(LLM)の性能向上を実証的に示している。
医学的Q&Aにおいて,RAGは普遍的な毒殺攻撃に弱いことが示唆された。
我々は、RAGの安全な使用を保証するために、新しい検出ベースの防御を開発する。
論文 参考訳(メタデータ) (2024-09-12T02:43:40Z) - BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models [18.107026036897132]
大規模言語モデル(LLM)は時代遅れの情報と誤ったデータを生成する傾向によって制約される。
Retrieval-Augmented Generation (RAG) は、検索手法の強みと生成モデルを組み合わせることで、これらの制限に対処する。
RAG は LLM に対する新たな攻撃面を導入している。特に RAG データベースは Web などの公開データからしばしば引き出されるためである。
論文 参考訳(メタデータ) (2024-06-03T02:25:33Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - Open-sourced Dataset Protection via Backdoor Watermarking [87.15630326131901]
本稿では,オープンソースの画像分類データセットを保護するために,Emphbackdoor Embeddingベースのデータセット透かし手法を提案する。
疑わしい第三者モデルによって生成される後続確率に基づいて,仮説テストガイド法を用いてデータセット検証を行う。
論文 参考訳(メタデータ) (2020-10-12T16:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。