論文の概要: RAGPart & RAGMask: Retrieval-Stage Defenses Against Corpus Poisoning in Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2512.24268v1
- Date: Tue, 30 Dec 2025 14:43:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.405108
- Title: RAGPart & RAGMask: Retrieval-Stage Defenses Against Corpus Poisoning in Retrieval-Augmented Generation
- Title(参考訳): RAGPart & RAGMask:Retrieval-Augmented Generationにおけるコーパス中毒対策
- Authors: Pankayaraj Pathmanathan, Michael-Andrei Panaitescu-Liess, Cho-Yu Jason Chiang, Furong Huang,
- Abstract要約: Retrieval-Augmented Generation (RAG)は、大規模言語モデルを強化するための有望なパラダイムとして登場した。
近年の研究では、悪意のある文書を検索コーパスに注入し、モデル出力を操作できるRAGパイプラインコーパス中毒の致命的な脆弱性が明らかにされている。
本稿では、RAGPartとRAGMaskの2つの相補的な検索ステージディフェンスを提案する。
- 参考スコア(独自算出の注目度): 43.85099769473328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as a promising paradigm to enhance large language models (LLMs) with external knowledge, reducing hallucinations and compensating for outdated information. However, recent studies have exposed a critical vulnerability in RAG pipelines corpus poisoning where adversaries inject malicious documents into the retrieval corpus to manipulate model outputs. In this work, we propose two complementary retrieval-stage defenses: RAGPart and RAGMask. Our defenses operate directly on the retriever, making them computationally lightweight and requiring no modification to the generation model. RAGPart leverages the inherent training dynamics of dense retrievers, exploiting document partitioning to mitigate the effect of poisoned points. In contrast, RAGMask identifies suspicious tokens based on significant similarity shifts under targeted token masking. Across two benchmarks, four poisoning strategies, and four state-of-the-art retrievers, our defenses consistently reduce attack success rates while preserving utility under benign conditions. We further introduce an interpretable attack to stress-test our defenses. Our findings highlight the potential and limitations of retrieval-stage defenses, providing practical insights for robust RAG deployments.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模言語モデル(LLM)を外部知識で拡張し、幻覚を減らし、時代遅れの情報を補うための有望なパラダイムとして登場した。
しかし、近年の研究では、悪意のある文書を検索コーパスに注入し、モデル出力を操作するRAGパイプラインコーパスの致命的な脆弱性が明らかにされている。
本稿では,RAGPartとRAGMaskの2つの相補的な検索ステージディフェンスを提案する。
我々のディフェンスはレトリバー上で直接動作し、計算的に軽量になり、生成モデルを変更する必要がなくなる。
RAGPartは、高密度レトリバーの固有のトレーニングダイナミクスを活用し、文書分割を利用して有毒な点の効果を緩和する。
対照的に、RAGMaskは、ターゲットトークンマスキングの下での大きな類似性シフトに基づいて、疑わしいトークンを識別する。
2つのベンチマーク、4つの毒殺戦略、そして4つの最先端のレトリバーにおいて、当社の防御は、良質な条件下での実用性を維持しながら、攻撃の成功率を一貫して低下させます。
我々はさらに、我々の防衛をストレステストするために解釈可能な攻撃を導入する。
以上の結果から,検索段階防衛の可能性と限界が浮き彫りになり,堅牢なRAG展開の実践的洞察が得られた。
関連論文リスト
- Rescuing the Unpoisoned: Efficient Defense against Knowledge Corruption Attacks on RAG Systems [11.812488957698038]
大規模言語モデル(LLM)は私たちの日常生活の多くの側面を変え、Webベースのサービスとして広く採用されています。
検索・拡張生成(RAG)は,外部知識ソースに根ざした応答を生成することによって,将来性のある方向として登場した。
近年の研究では、誤情報注入による知識腐敗攻撃など、RAGの脆弱性が実証されている。
本稿では,知識汚職に対する資源効率のよい防御機構であるRAGDefenderを紹介する。
論文 参考訳(メタデータ) (2025-11-03T06:39:58Z) - Disabling Self-Correction in Retrieval-Augmented Generation via Stealthy Retriever Poisoning [14.419943772894754]
Retrieval-Augmented Generation (RAG)は,大規模言語モデル(LLM)の信頼性向上のための標準アプローチとなっている。
本稿では,現代のLSMの強力なテクスト自己補正能力(SCA)によって,このような攻撃を軽減できることを明らかにする。
我々は,新しい中毒パラダイムであるtextscDisarmRAG を導入し,レトリバー自体を妥協してSCAを抑止し,アタッカー・チョーゼン出力を強制する。
論文 参考訳(メタデータ) (2025-08-27T17:49:28Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - FlippedRAG: Black-Box Opinion Manipulation Adversarial Attacks to Retrieval-Augmented Generation Models [22.35026334463735]
我々は、ブラックボックスRAGシステムに対するトランスファーベースの敵攻撃であるFlippedRAGを提案する。
FlippedRAGは、RAG生成反応の意見において平均50%の方向シフトを達成する。
これらの結果は、RAGシステムのセキュリティと信頼性を確保するために革新的な防衛ソリューションを開発する緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-01-06T12:24:57Z) - Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。
RAGシステムは、検索コーパスに注入された悪意のある通路が、モデルに誤った結果をもたらす可能性がある、敵の毒殺攻撃に対して脆弱である。
本稿では、RAGシステムがこのような攻撃下でどのように振る舞うか、その堅牢性がどのように改善されるかについて、厳密に制御された実証研究を示す。
論文 参考訳(メタデータ) (2024-12-21T17:31:52Z) - Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of Large Language Models [0.0]
Retrieval Augmented Generation (RAG)は、大規模言語モデルと最新の情報検索を組み合わせることでこの問題に対処する。
本稿では、誤報以外の有害な目的に焦点をあて、RAGに対する即時注射攻撃について検討する。
我々は,既存のコーパス中毒技術を構築し,高密度レトリバー部品の微調整を目的とした新しいバックドアアタックを提案する。
論文 参考訳(メタデータ) (2024-10-18T14:02:34Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。