論文の概要: Detecting RAG Extraction Attack via Dual-Path Runtime Integrity Game
- arxiv url: http://arxiv.org/abs/2604.10717v1
- Date: Sun, 12 Apr 2026 16:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.185919
- Title: Detecting RAG Extraction Attack via Dual-Path Runtime Integrity Game
- Title(参考訳): デュアルパス実行時統合ゲームによるRAG抽出攻撃の検出
- Authors: Yuanbo Xie, Yingjie Zhang, Yulin Li, Shouyou Song, Xiaokun Chen, Zhihan Liu, Liya Su, Tingwen Liu,
- Abstract要約: Retrieval-Augmented Generation (RAG)システムは、外部知識で大規模な言語モデルを拡張するが、重要なセキュリティ脆弱性であるRAG Knowledge Base Leakageを導入する。
ソフトウェアセキュリティにおけるスタックカナリアにインスパイアされた,ランタイム防御機構であるCanaryRAGを提案する。
CanaryRAGは、慎重に設計されたカナリアトークンを検索したチャンクに埋め込んで、RAG抽出防御をデュアルパスランタイム整合性ゲームとして再構成する。
- 参考スコア(独自算出の注目度): 23.794446184684755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems augment large language models with external knowledge, yet introduce a critical security vulnerability: RAG Knowledge Base Leakage, wherein adversarial prompts can induce the model to divulge retrieved proprietary content. Recent studies reveal that such leakage can be executed through adaptive and iterative attack strategies (named RAG extraction attack), while effective countermeasures remain notably lacking. To bridge this gap, we propose CanaryRAG, a runtime defense mechanism inspired by stack canaries in software security. CanaryRAG embeds carefully designed canary tokens into retrieved chunks and reformulates RAG extraction defense as a dual-path runtime integrity game. Leakage is detected in real time whenever either the target or oracle path violates its expected canary behavior, including under adaptive suppression and obfuscation. Extensive evaluations against existing attacks demonstrate that CanaryRAG provides robust defense, achieving substantially lower chunk recovery rates than state-of-the-art baselines while imposing negligible impact on task performance and inference latency. Moreover, as a plug-and-play solution, CanaryRAG can be seamlessly integrated into arbitrary RAG pipelines without requiring retraining or structural modifications, offering a practical and scalable safeguard for proprietary data.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、外部の知識で大きな言語モデルを拡張するが、重大なセキュリティ上の脆弱性をもたらす: RAG Knowledge Base Leakage。
近年の研究では、適応的かつ反復的な攻撃戦略(RAG抽出攻撃(英語版))を通じて、そのような漏洩が実行可能であることが明らかになっている。
このギャップを埋めるため,ソフトウェアセキュリティにおけるスタックカナリアにインスパイアされたランタイム防御機構であるCanaryRAGを提案する。
CanaryRAGは、慎重に設計されたカナリアトークンを検索したチャンクに埋め込んで、RAG抽出防御をデュアルパスランタイム整合性ゲームとして再構成する。
漏れは、標的経路またはオラクル経路のいずれかが、適応的抑制や難読化を含む期待されるカナリア行動に違反するたびにリアルタイムで検出される。
既存の攻撃に対する大規模な評価は、CanaryRAGが堅牢な防御を提供し、最先端のベースラインよりもチャンクリカバリ率を大幅に低くし、タスクパフォーマンスと推論レイテンシに無視できない影響を与えていることを示している。
さらに、プラグイン・アンド・プレイのソリューションとして、CanaryRAGを任意のRAGパイプラインにシームレスに統合することで、リトレーニングや構造変更を必要とせず、プロプライエタリなデータに対する実用的でスケーラブルな保護を提供する。
関連論文リスト
- Confundo: Learning to Generate Robust Poison for Practical RAG Systems [19.77771071590713]
Confundoは、大きな言語モデルを毒の発生源として微調整し、高い有効性、堅牢性、およびステルス性を達成するための学習・博学のフレームワークである。
Confundoは、データセットとRAG設定をまたいで、幅広い目的に構築されたアタックを一貫して上回っていることを示す。
また,RAGシステムへの不正な組み込みからWebコンテンツをスクレイピングによって保護する防衛的ユースケースも提示する。
論文 参考訳(メタデータ) (2026-02-06T11:19:49Z) - Connect the Dots: Knowledge Graph-Guided Crawler Attack on Retrieval-Augmented Generation Systems [14.028345839891855]
Retrieval-augmented Generation (RAG) システムは、文書検索と大きな言語モデルを統合する。
RAGは新たなプライバシーリスクを導入している: 敵は慎重に構築されたクエリを発行し、センシティブなコンテンツを徐々に流出させる。
RAGCRAWLERは,情報公開のための知識グラフを構築し,未検索領域を対象としたセマンティック空間でのクエリを計画する。
論文 参考訳(メタデータ) (2026-01-22T05:59:42Z) - RAGPart & RAGMask: Retrieval-Stage Defenses Against Corpus Poisoning in Retrieval-Augmented Generation [43.85099769473328]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルを強化するための有望なパラダイムとして登場した。
近年の研究では、悪意のある文書を検索コーパスに注入し、モデル出力を操作できるRAGパイプラインコーパス中毒の致命的な脆弱性が明らかにされている。
本稿では、RAGPartとRAGMaskの2つの相補的な検索ステージディフェンスを提案する。
論文 参考訳(メタデータ) (2025-12-30T14:43:57Z) - Rescuing the Unpoisoned: Efficient Defense against Knowledge Corruption Attacks on RAG Systems [11.812488957698038]
大規模言語モデル(LLM)は私たちの日常生活の多くの側面を変え、Webベースのサービスとして広く採用されています。
検索・拡張生成(RAG)は,外部知識ソースに根ざした応答を生成することによって,将来性のある方向として登場した。
近年の研究では、誤情報注入による知識腐敗攻撃など、RAGの脆弱性が実証されている。
本稿では,知識汚職に対する資源効率のよい防御機構であるRAGDefenderを紹介する。
論文 参考訳(メタデータ) (2025-11-03T06:39:58Z) - Disabling Self-Correction in Retrieval-Augmented Generation via Stealthy Retriever Poisoning [14.419943772894754]
Retrieval-Augmented Generation (RAG)は,大規模言語モデル(LLM)の信頼性向上のための標準アプローチとなっている。
本稿では,現代のLSMの強力なテクスト自己補正能力(SCA)によって,このような攻撃を軽減できることを明らかにする。
我々は,新しい中毒パラダイムであるtextscDisarmRAG を導入し,レトリバー自体を妥協してSCAを抑止し,アタッカー・チョーゼン出力を強制する。
論文 参考訳(メタデータ) (2025-08-27T17:49:28Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Certifiably Robust RAG against Retrieval Corruption [58.677292678310934]
Retrieval-augmented Generation (RAG) は、回復汚職攻撃に弱いことが示されている。
本稿では,ロバストRAGを検索汚職攻撃に対する最初の防御フレームワークとして提案する。
論文 参考訳(メタデータ) (2024-05-24T13:44:25Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。