論文の概要: Disabling Self-Correction in Retrieval-Augmented Generation via Stealthy Retriever Poisoning
- arxiv url: http://arxiv.org/abs/2508.20083v1
- Date: Wed, 27 Aug 2025 17:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.726744
- Title: Disabling Self-Correction in Retrieval-Augmented Generation via Stealthy Retriever Poisoning
- Title(参考訳): ステルス性レトリバー中毒による検索強化ジェネレーションにおける自己補正の無効化
- Authors: Yanbo Dai, Zhenlan Ji, Zongjie Li, Kuan Li, Shuai Wang,
- Abstract要約: Retrieval-Augmented Generation (RAG)は,大規模言語モデル(LLM)の信頼性向上のための標準アプローチとなっている。
本稿では,現代のLSMの強力なテクスト自己補正能力(SCA)によって,このような攻撃を軽減できることを明らかにする。
我々は,新しい中毒パラダイムであるtextscDisarmRAG を導入し,レトリバー自体を妥協してSCAを抑止し,アタッカー・チョーゼン出力を強制する。
- 参考スコア(独自算出の注目度): 14.419943772894754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has become a standard approach for improving the reliability of large language models (LLMs). Prior work demonstrates the vulnerability of RAG systems by misleading them into generating attacker-chosen outputs through poisoning the knowledge base. However, this paper uncovers that such attacks could be mitigated by the strong \textit{self-correction ability (SCA)} of modern LLMs, which can reject false context once properly configured. This SCA poses a significant challenge for attackers aiming to manipulate RAG systems. In contrast to previous poisoning methods, which primarily target the knowledge base, we introduce \textsc{DisarmRAG}, a new poisoning paradigm that compromises the retriever itself to suppress the SCA and enforce attacker-chosen outputs. This compromisation enables the attacker to straightforwardly embed anti-SCA instructions into the context provided to the generator, thereby bypassing the SCA. To this end, we present a contrastive-learning-based model editing technique that performs localized and stealthy edits, ensuring the retriever returns a malicious instruction only for specific victim queries while preserving benign retrieval behavior. To further strengthen the attack, we design an iterative co-optimization framework that automatically discovers robust instructions capable of bypassing prompt-based defenses. We extensively evaluate DisarmRAG across six LLMs and three QA benchmarks. Our results show near-perfect retrieval of malicious instructions, which successfully suppress SCA and achieve attack success rates exceeding 90\% under diverse defensive prompts. Also, the edited retriever remains stealthy under several detection methods, highlighting the urgent need for retriever-centric defenses.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は,大規模言語モデル(LLM)の信頼性向上のための標準手法となっている。
以前の研究は、RAGシステムの脆弱性を、知識ベースに毒を盛ることによって、それらを誤認してアタッカー・朝鮮語出力を生成することによって実証している。
しかし,本稿では,近代LLMの強力な \textit{self-correction ability (SCA) によって,このような攻撃が軽減されうることを明らかにする。
このSCAは、RAGシステムを操作しようとする攻撃者にとって大きな課題となる。
知識ベースを主なターゲットとする従来の毒殺手法とは対照的に,新たな毒殺パラダイムである「textsc{DisarmRAG}」を導入する。
この妥協により、攻撃者はジェネレータに提供されるコンテキストに反SCA命令を直接埋め込むことができ、SCAをバイパスすることができる。
そこで本研究では,局所的かつステルス的な編集を行うコントラスト学習に基づくモデル編集手法を提案する。
攻撃をさらに強化するため,我々は,迅速な防御を回避できる堅牢な指示を自動的に検出する反復的協調最適化フレームワークを設計した。
我々は6つのLSMと3つのQAベンチマークでDisarmRAGを広範囲に評価した。
本研究は,SCAの抑制に成功し,多種多様な防御策による攻撃成功率の90%以上を達成できる悪意のある命令をほぼ完全に検索できることを示す。
また、編集されたレトリバーは、いくつかの検出方法の下でステルス状態のままであり、レトリバー中心の防御が緊急に必要であることを強調している。
関連論文リスト
- Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Chain-of-Thought Poisoning Attacks against R1-based Retrieval-Augmented Generation Systems [39.05753852489526]
既存の敵攻撃法は通常、知識ベース中毒を利用してRAGシステムの脆弱性を調査する。
本稿では、R1ベースのRAGシステムからの推論プロセステンプレートを用いて、誤った知識を敵の文書にラップし、それらを知識ベースに注入してRAGシステムを攻撃する。
提案手法の鍵となる考え方は,モデルのトレーニング信号に一致したチェーン・オブ・シンクレット・パターンをシミュレートすることで,正史的推論プロセスとしてモデルによって誤解される可能性がある,というものである。
論文 参考訳(メタデータ) (2025-05-22T08:22:46Z) - POISONCRAFT: Practical Poisoning of Retrieval-Augmented Generation for Large Language Models [4.620537391830117]
大型言語モデル(LLM)は幻覚の影響を受けやすいため、誤った結果や誤解を招く可能性がある。
Retrieval-augmented Generation (RAG) は、外部知識源を活用することで幻覚を緩和する有望なアプローチである。
本稿では,POISONCRAFTと呼ばれるRAGシステムに対する中毒攻撃について検討する。
論文 参考訳(メタデータ) (2025-05-10T09:36:28Z) - Hoist with His Own Petard: Inducing Guardrails to Facilitate Denial-of-Service Attacks on Retrieval-Augmented Generation of LLMs [8.09404178079053]
Retrieval-Augmented Generation (RAG)は、Large Language Models (LLM)を外部の知識ベースと統合し、新たなセキュリティリスクを導入しながら出力品質を改善する。
RAGの脆弱性に関する既存の研究は、典型的には不正な知識や悪意のあるテキストを注入する検索メカニズムの活用に重点を置いており、誤った出力を誘導している。
本稿では, LLM の安全ガードレールの脆弱性を明らかにする。LLM の安全ガードレールは保護のために設計されているが, 敵による攻撃ベクトルとして利用することもできる。この脆弱性に基づいて, 本脆弱性を生かして, ガードレールの可利用性を損なうために, リバース・オブ・サービス・アタックである MutedRAG を提案する。
論文 参考訳(メタデータ) (2025-04-30T14:18:11Z) - Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of Large Language Models [0.0]
Retrieval Augmented Generation (RAG)は、大規模言語モデルと最新の情報検索を組み合わせることでこの問題に対処する。
本稿では、誤報以外の有害な目的に焦点をあて、RAGに対する即時注射攻撃について検討する。
我々は,既存のコーパス中毒技術を構築し,高密度レトリバー部品の微調整を目的とした新しいバックドアアタックを提案する。
論文 参考訳(メタデータ) (2024-10-18T14:02:34Z) - Corpus Poisoning via Approximate Greedy Gradient Descent [48.5847914481222]
本稿では,HotFlip法をベースとした高密度検索システムに対する新たな攻撃手法として,近似グレディ・グラディエント・Descentを提案する。
提案手法は,複数のデータセットと複数のレトリバーを用いて高い攻撃成功率を達成し,未知のクエリや新しいドメインに一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T17:02:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。