論文の概要: Rescuing the Unpoisoned: Efficient Defense against Knowledge Corruption Attacks on RAG Systems
- arxiv url: http://arxiv.org/abs/2511.01268v1
- Date: Mon, 03 Nov 2025 06:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.142224
- Title: Rescuing the Unpoisoned: Efficient Defense against Knowledge Corruption Attacks on RAG Systems
- Title(参考訳): 消毒剤の回収:RAGシステムにおける知識破壊攻撃に対する効果的な防御
- Authors: Minseok Kim, Hankook Lee, Hyungjoon Koo,
- Abstract要約: 大規模言語モデル(LLM)は私たちの日常生活の多くの側面を変え、Webベースのサービスとして広く採用されています。
検索・拡張生成(RAG)は,外部知識ソースに根ざした応答を生成することによって,将来性のある方向として登場した。
近年の研究では、誤情報注入による知識腐敗攻撃など、RAGの脆弱性が実証されている。
本稿では,知識汚職に対する資源効率のよい防御機構であるRAGDefenderを紹介する。
- 参考スコア(独自算出の注目度): 11.812488957698038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are reshaping numerous facets of our daily lives, leading widespread adoption as web-based services. Despite their versatility, LLMs face notable challenges, such as generating hallucinated content and lacking access to up-to-date information. Lately, to address such limitations, Retrieval-Augmented Generation (RAG) has emerged as a promising direction by generating responses grounded in external knowledge sources. A typical RAG system consists of i) a retriever that probes a group of relevant passages from a knowledge base and ii) a generator that formulates a response based on the retrieved content. However, as with other AI systems, recent studies demonstrate the vulnerability of RAG, such as knowledge corruption attacks by injecting misleading information. In response, several defense strategies have been proposed, including having LLMs inspect the retrieved passages individually or fine-tuning robust retrievers. While effective, such approaches often come with substantial computational costs. In this work, we introduce RAGDefender, a resource-efficient defense mechanism against knowledge corruption (i.e., by data poisoning) attacks in practical RAG deployments. RAGDefender operates during the post-retrieval phase, leveraging lightweight machine learning techniques to detect and filter out adversarial content without requiring additional model training or inference. Our empirical evaluations show that RAGDefender consistently outperforms existing state-of-the-art defenses across multiple models and adversarial scenarios: e.g., RAGDefender reduces the attack success rate (ASR) against the Gemini model from 0.89 to as low as 0.02, compared to 0.69 for RobustRAG and 0.24 for Discern-and-Answer when adversarial passages outnumber legitimate ones by a factor of four (4x).
- Abstract(参考訳): 大規模言語モデル(LLM)は私たちの日常生活の多くの側面を変え、Webベースのサービスとして広く採用されています。
汎用性にもかかわらず、LLMは幻覚コンテンツの生成や最新の情報へのアクセスの欠如など、注目すべき課題に直面している。
近年,このような制約に対処するために,外部知識ソースに根ざした応答を生成することにより,RAG(Retrieval-Augmented Generation)が有望な方向として出現している。
典型的なRAGシステムは
一 知識ベースから関連通路のグループを調査する検索者及び
二 回収した内容に基づいて応答を定式化する発生器
しかしながら、他のAIシステムと同様に、近年の研究は、誤った情報を注入することによって知識腐敗攻撃のようなRAGの脆弱性を実証している。
これに対し、LLMは個別に回収された通路を検査したり、微調整された頑健なレトリバーを検査するなど、いくつかの防衛戦略が提案されている。
効果はあるものの、そのようなアプローチにはかなりの計算コストが伴うことが多い。
本稿では,RAGデプロイメントにおける知識汚染(すなわちデータ中毒)に対する資源効率の高い防御機構であるRAGDefenderを紹介する。
RAGDefenderは、検索後のフェーズで動作し、軽量な機械学習技術を活用して、追加のモデルトレーニングや推論を必要とせずに、敵対的コンテンツを検出およびフィルタリングする。
RAGDefender は Gemini モデルに対する攻撃成功率 (ASR) を 0.89 から 0.02 まで下げるが,RobostRAG では 0.69 と Discern-and-Answer では 0.24 である。
関連論文リスト
- RIPRAG: Hack a Black-box Retrieval-Augmented Generation Question-Answering System with Reinforcement Learning [23.957879891712306]
本稿では,ターゲットRAGシステムをブラックボックスとして扱うエンドツーエンド攻撃パイプラインを提案する。
本手法は,ほとんどの複雑なRAGシステムに対する毒性攻撃を効果的に実行できることを実証する。
論文 参考訳(メタデータ) (2025-10-11T04:23:20Z) - Disabling Self-Correction in Retrieval-Augmented Generation via Stealthy Retriever Poisoning [14.419943772894754]
Retrieval-Augmented Generation (RAG)は,大規模言語モデル(LLM)の信頼性向上のための標準アプローチとなっている。
本稿では,現代のLSMの強力なテクスト自己補正能力(SCA)によって,このような攻撃を軽減できることを明らかにする。
我々は,新しい中毒パラダイムであるtextscDisarmRAG を導入し,レトリバー自体を妥協してSCAを抑止し,アタッカー・チョーゼン出力を強制する。
論文 参考訳(メタデータ) (2025-08-27T17:49:28Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Benchmarking Poisoning Attacks against Retrieval-Augmented Generation [12.573766276297441]
Retrieval-Augmented Generation (RAG) は、推論中に外部知識を取り入れることで、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
我々は、RAGに対する中毒攻撃を評価するための、最初の包括的なベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-24T06:17:59Z) - POISONCRAFT: Practical Poisoning of Retrieval-Augmented Generation for Large Language Models [4.620537391830117]
大型言語モデル(LLM)は幻覚の影響を受けやすいため、誤った結果や誤解を招く可能性がある。
Retrieval-augmented Generation (RAG) は、外部知識源を活用することで幻覚を緩和する有望なアプローチである。
本稿では,POISONCRAFTと呼ばれるRAGシステムに対する中毒攻撃について検討する。
論文 参考訳(メタデータ) (2025-05-10T09:36:28Z) - Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation [71.32665836294103]
マルチモーダル検索強化世代(RAG)は視覚言語モデル(VLM)の視覚的推論能力を向上させる
本研究では,マルチモーダルRAGシステムに対する最初の知識中毒攻撃であるtextitPoisoned-MRAGを紹介する。
論文 参考訳(メタデータ) (2025-03-08T15:46:38Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [104.50239783909063]
Retrieval Augmented Generation (RAG) を用いた多モーダル大規模言語モデルは、多モーダル質問応答のようなかなり高度なタスクを持つ。
この外部知識への依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを引き起こす。
マルチモーダルRAGにおける知識中毒を体系的に設計する最初のフレームワークであるMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - FlippedRAG: Black-Box Opinion Manipulation Adversarial Attacks to Retrieval-Augmented Generation Models [22.35026334463735]
我々は、ブラックボックスRAGシステムに対するトランスファーベースの敵攻撃であるFlippedRAGを提案する。
FlippedRAGは、RAG生成反応の意見において平均50%の方向シフトを達成する。
これらの結果は、RAGシステムのセキュリティと信頼性を確保するために革新的な防衛ソリューションを開発する緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-01-06T12:24:57Z) - Corpus Poisoning via Approximate Greedy Gradient Descent [48.5847914481222]
本稿では,HotFlip法をベースとした高密度検索システムに対する新たな攻撃手法として,近似グレディ・グラディエント・Descentを提案する。
提案手法は,複数のデータセットと複数のレトリバーを用いて高い攻撃成功率を達成し,未知のクエリや新しいドメインに一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T17:02:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。