論文の概要: Connect the Dots: Knowledge Graph-Guided Crawler Attack on Retrieval-Augmented Generation Systems
- arxiv url: http://arxiv.org/abs/2601.15678v1
- Date: Thu, 22 Jan 2026 05:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.508995
- Title: Connect the Dots: Knowledge Graph-Guided Crawler Attack on Retrieval-Augmented Generation Systems
- Title(参考訳): ドットを接続する: 検索型生成システムにおける知識グラフ誘導クローラー攻撃
- Authors: Mengyu Yao, Ziqi Zhang, Ning Luo, Shaofei Li, Yifeng Cai, Xiangqun Chen, Yao Guo, Ding Li,
- Abstract要約: Retrieval-augmented Generation (RAG) システムは、文書検索と大きな言語モデルを統合する。
RAGは新たなプライバシーリスクを導入している: 敵は慎重に構築されたクエリを発行し、センシティブなコンテンツを徐々に流出させる。
RAGCRAWLERは,情報公開のための知識グラフを構築し,未検索領域を対象としたセマンティック空間でのクエリを計画する。
- 参考スコア(独自算出の注目度): 14.028345839891855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) systems integrate document retrieval with large language models and have been widely adopted. However, in privacy-related scenarios, RAG introduces a new privacy risk: adversaries can issue carefully crafted queries to exfiltrate sensitive content from the underlying corpus gradually. Although recent studies have demonstrated multi-turn extraction attacks, they rely on heuristics and fail to perform long-term extraction planning. To address these limitations, we formulate the RAG extraction attack as an adaptive stochastic coverage problem (ASCP). In ASCP, each query is treated as a probabilistic action that aims to maximize conditional marginal gain (CMG), enabling principled long-term planning under uncertainty. However, integrating ASCP with practical RAG attack faces three key challenges: unobservable CMG, intractability in the action space, and feasibility constraints. To overcome these challenges, we maintain a global attacker-side state to guide the attack. Building on this idea, we introduce RAGCRAWLER, which builds a knowledge graph to represent revealed information, uses this global state to estimate CMG, and plans queries in semantic space that target unretrieved regions. In comprehensive experiments across diverse RAG architectures and datasets, our proposed method, RAGCRAWLER, consistently outperforms all baselines. It achieves up to 84.4% corpus coverage within a fixed query budget and deliver an average improvement of 20.7% over the top-performing baseline. It also maintains high semantic fidelity and strong content reconstruction accuracy with low attack cost. Crucially, RAGCRAWLER proves its robustness by maintaining effectiveness against advanced RAG systems employing query rewriting and multi-query retrieval strategies. Our work reveals significant security gaps and highlights the pressing need for stronger safeguards for RAG.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) システムは,文書検索を大規模言語モデルと統合し,広く採用されている。
しかしながら、プライバシ関連のシナリオでは、RAGは新たなプライバシリスクを導入している。
近年の研究では、多ターン抽出攻撃が実証されているが、ヒューリスティックスに依存し、長期抽出計画の実行に失敗している。
これらの制約に対処するため、RAG抽出攻撃を適応確率被覆問題(ASCP)として定式化する。
ASCPでは、各クエリは条件付き辺縁ゲイン(CMG)の最大化を目的とした確率的アクションとして扱われ、不確実性の下での原則的長期計画を可能にする。
しかし、ASCPを実用的なRAG攻撃と統合することは、観測不能なCMG、アクション空間の難易度、実現可能性制約の3つの大きな課題に直面している。
これらの課題を克服するため、攻撃を誘導するグローバルアタッカー側の状態を維持しています。
このアイデアに基づいてRAGCRAWLERを導入し、情報公開のための知識グラフを構築し、このグローバルステートを用いてCMGを推定し、未検索領域をターゲットにしたセマンティックスペースでのクエリを計画する。
多様なRAGアーキテクチャやデータセットを対象とした総合的な実験では,提案手法であるRAGCRAWLERがすべてのベースラインを一貫して上回る結果となった。
固定されたクエリ予算で84.4%のコーパスカバレッジを達成し、最高パフォーマンスのベースラインに対して平均20.7%の改善を提供する。
また、攻撃コストの低いセマンティックな忠実さと強力なコンテンツ再構成の精度も維持する。
RAGCRAWLERは、クエリ書き換えとマルチクエリ検索戦略を用いた高度なRAGシステムに対して、その堅牢性を証明している。
我々の研究は重大なセキュリティギャップを明らかにし、RAGのより強力な保護の必要性を強調しています。
関連論文リスト
- External Data Extraction Attacks against Retrieval-Augmented Large Language Models [70.47869786522782]
RAGは、大規模言語モデル(LLM)を拡張するための重要なパラダイムとして登場した。
RAGは外部データ抽出攻撃(EDEA)の新たなリスクを導入している。
本研究は, EDEA を検索拡張 LLM に対して形式化する最初の総合的研究である。
論文 参考訳(メタデータ) (2025-10-03T12:53:45Z) - Token-Level Precise Attack on RAG: Searching for the Best Alternatives to Mislead Generation [7.441679541836913]
Token-level Precise Attack on the RAG (TPARAG) は、ホワイトボックスとブラックボックスの両方のRAGシステムをターゲットにした新しいフレームワークである。
TPARAGは、検索ステージとエンド・ツー・エンド・アタックの有効性において、従来のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-05T05:44:19Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Benchmarking Poisoning Attacks against Retrieval-Augmented Generation [12.573766276297441]
Retrieval-Augmented Generation (RAG) は、推論中に外部知識を取り入れることで、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
我々は、RAGに対する中毒攻撃を評価するための、最初の包括的なベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-24T06:17:59Z) - MES-RAG: Bringing Multi-modal, Entity-Storage, and Secure Enhancements to RAG [65.0423152595537]
本稿では,エンティティ固有のクエリ処理を強化し,正確でセキュアで一貫した応答を提供するMES-RAGを提案する。
MES-RAGは、データアクセスの前に保護を適用してシステムの整合性を確保するための積極的なセキュリティ対策を導入している。
実験の結果,MES-RAGは精度とリコールの両方を著しく改善し,質問応答の安全性と有用性を向上する効果が示された。
論文 参考訳(メタデータ) (2025-03-17T08:09:42Z) - Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey [92.36487127683053]
Retrieval-Augmented Generation (RAG)は、AIGC(AIGC)の課題に対処するために設計された高度な技術である。
RAGは信頼性と最新の外部知識を提供し、幻覚を減らし、幅広いタスクで関連するコンテキストを保証する。
RAGの成功と可能性にもかかわらず、最近の研究により、RAGパラダイムはプライバシーの懸念、敵対的攻撃、説明責任の問題など、新たなリスクももたらしていることが示されている。
論文 参考訳(メタデータ) (2025-02-08T06:50:47Z) - FlippedRAG: Black-Box Opinion Manipulation Adversarial Attacks to Retrieval-Augmented Generation Models [22.35026334463735]
我々は、ブラックボックスRAGシステムに対するトランスファーベースの敵攻撃であるFlippedRAGを提案する。
FlippedRAGは、RAG生成反応の意見において平均50%の方向シフトを達成する。
これらの結果は、RAGシステムのセキュリティと信頼性を確保するために革新的な防衛ソリューションを開発する緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-01-06T12:24:57Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Typos that Broke the RAG's Back: Genetic Attack on RAG Pipeline by Simulating Documents in the Wild via Low-level Perturbations [9.209974698634175]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) の限界に対処するための有望なソリューションである。
本研究では,RAGのロバスト性評価における2つの未解明点について検討する。
本稿では,RAG(textitGARAG)を標的とした新たな攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-04-22T07:49:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。