論文の概要: Secure Retrieval-Augmented Generation against Poisoning Attacks
- arxiv url: http://arxiv.org/abs/2510.25025v1
- Date: Tue, 28 Oct 2025 22:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.817534
- Title: Secure Retrieval-Augmented Generation against Poisoning Attacks
- Title(参考訳): 毒殺事件に対する安全回復型世代
- Authors: Zirui Cheng, Jikai Sun, Anjun Gao, Yueyang Quan, Zhuqing Liu, Xiaohua Hu, Minghong Fang,
- Abstract要約: 大規模言語モデル (LLM) は自然言語処理 (NLP) を変換した。
RaGuardは、有毒テキストを特定するために設計された検出フレームワークである。
大規模データセットの実験は、毒殺攻撃を検出し緩和する効果を実証している。
- 参考スコア(独自算出の注目度): 10.964269668142151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have transformed natural language processing (NLP), enabling applications from content generation to decision support. Retrieval-Augmented Generation (RAG) improves LLMs by incorporating external knowledge but also introduces security risks, particularly from data poisoning, where the attacker injects poisoned texts into the knowledge database to manipulate system outputs. While various defenses have been proposed, they often struggle against advanced attacks. To address this, we introduce RAGuard, a detection framework designed to identify poisoned texts. RAGuard first expands the retrieval scope to increase the proportion of clean texts, reducing the likelihood of retrieving poisoned content. It then applies chunk-wise perplexity filtering to detect abnormal variations and text similarity filtering to flag highly similar texts. This non-parametric approach enhances RAG security, and experiments on large-scale datasets demonstrate its effectiveness in detecting and mitigating poisoning attacks, including strong adaptive attacks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理(NLP)を変換し、コンテンツ生成から意思決定サポートまでアプリケーションを可能にする。
Retrieval-Augmented Generation (RAG)は、外部知識を取り入れてLLMを改善すると同時に、特にデータ中毒によるセキュリティリスクも導入する。
様々な防衛策が提案されているが、しばしば先進的な攻撃と戦っている。
そこで本研究では,有毒テキストの識別を目的とした検出フレームワークであるRAGuardを紹介する。
RAGuardはまず検索範囲を広げてクリーンテキストの割合を増やし、有害なコンテンツを取得する可能性を減らす。
次にチャンクワイズパープレキシティフィルタを適用して、異常な変分とテキスト類似度フィルタリングを検出し、非常に類似したテキストにフラグを付ける。
この非パラメトリックなアプローチはRAGのセキュリティを強化し、大規模なデータセットの実験は、強力な適応攻撃を含む中毒攻撃を検出し緩和する効果を示す。
関連論文リスト
- Who Taught the Lie? Responsibility Attribution for Poisoned Knowledge in Retrieval-Augmented Generation [18.511277791848638]
Retrieval-Augmented Generation (RAG)は、外部知識を大規模言語モデルに統合し、応答品質を向上させる。
近年の研究では、RAGシステムは、悪意のあるテキストを知識データベースに挿入し、モデル出力に影響を与える有害な攻撃に対して非常に脆弱であることが示されている。
本稿では,知識データベースのどのテキストが誤読や誤用の原因であるかを識別するブラックボックス責任属性フレームワークであるRAGOriginについて述べる。
論文 参考訳(メタデータ) (2025-09-17T07:38:54Z) - Defending Against Knowledge Poisoning Attacks During Retrieval-Augmented Generation [9.625480143413405]
Retrieval-Augmented Generation (RAG)は,大規模言語モデル(LLM)の能力向上のための強力なアプローチとして登場した。
そのような攻撃の1つはPoisonedRAGで、注入された敵のテキストがモデルを操り、ターゲットの質問に対する攻撃長応答を生成する。
我々は,PoisonedRAG攻撃を緩和するために,新しい防御手法であるFilterRAGとML-FilterRAGを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:03:52Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Traceback of Poisoning Attacks to Retrieval-Augmented Generation [18.902988029537365]
研究によると、RAGの毒殺攻撃に対する感受性が明らかとなり、攻撃者は知識データベースに有毒なテキストを注入した。
既存の防衛は、主に推論時間の緩和に焦点を当てており、高度な攻撃に対して不十分であることが証明されている。
本稿では,RAGの最初のトレースバックシステムであるRAGForensicsを紹介し,攻撃に責任を持つ知識データベース内の有毒テキストを識別する。
論文 参考訳(メタデータ) (2025-04-30T14:10:02Z) - Practical Poisoning Attacks against Retrieval-Augmented Generation [9.320227105592917]
大規模言語モデル(LLM)は、印象的な自然言語処理能力を示しているが、幻覚や時代遅れの知識といった課題に直面している。
Retrieval-Augmented Generation (RAG)は、これらの問題を緩和するための最先端のアプローチとして登場した。
我々は、攻撃者が1つの有毒テキストだけを注入するRAGシステムに対する実用的な中毒攻撃であるCorruptRAGを提案する。
論文 参考訳(メタデータ) (2025-04-04T21:49:42Z) - Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation [71.32665836294103]
マルチモーダル検索強化世代(RAG)は視覚言語モデル(VLM)の視覚的推論能力を向上させる
本研究では,マルチモーダルRAGシステムに対する最初の知識中毒攻撃であるtextitPoisoned-MRAGを紹介する。
論文 参考訳(メタデータ) (2025-03-08T15:46:38Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [104.50239783909063]
Retrieval Augmented Generation (RAG) を用いた多モーダル大規模言語モデルは、多モーダル質問応答のようなかなり高度なタスクを持つ。
この外部知識への依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを引き起こす。
マルチモーダルRAGにおける知識中毒を体系的に設計する最初のフレームワークであるMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models [45.409248316497674]
大規模言語モデル(LLM)は、その例外的な生成能力により、顕著な成功を収めた。
Retrieval-Augmented Generation (RAG)は、これらの制限を緩和するための最先端技術である。
RAGシステムにおける知識データベースは,新たな,実用的な攻撃面を導入している。
この攻撃面に基づいて,RAGに対する最初の知識汚職攻撃であるPoisonedRAGを提案する。
論文 参考訳(メタデータ) (2024-02-12T18:28:36Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。