論文の概要: RIPRAG: Hack a Black-box Retrieval-Augmented Generation Question-Answering System with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.10008v1
- Date: Sat, 11 Oct 2025 04:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.733608
- Title: RIPRAG: Hack a Black-box Retrieval-Augmented Generation Question-Answering System with Reinforcement Learning
- Title(参考訳): RIPRAG:強化学習によるブラックボックス検索型質問応答システム
- Authors: Meng Xi, Sihan Lv, Yechen Jin, Guanjie Cheng, Naibo Wang, Ying Li, Jianwei Yin,
- Abstract要約: 本稿では,ターゲットRAGシステムをブラックボックスとして扱うエンドツーエンド攻撃パイプラインを提案する。
本手法は,ほとんどの複雑なRAGシステムに対する毒性攻撃を効果的に実行できることを実証する。
- 参考スコア(独自算出の注目度): 23.957879891712306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems based on Large Language Models (LLMs) have become a core technology for tasks such as question-answering (QA) and content generation. However, by injecting poisoned documents into the database of RAG systems, attackers can manipulate LLMs to generate text that aligns with their intended preferences. Existing research has primarily focused on white-box attacks against simplified RAG architectures. In this paper, we investigate a more complex and realistic scenario: the attacker lacks knowledge of the RAG system's internal composition and implementation details, and the RAG system comprises components beyond a mere retriever. Specifically, we propose the RIPRAG attack framework, an end-to-end attack pipeline that treats the target RAG system as a black box, where the only information accessible to the attacker is whether the poisoning succeeds. Our method leverages Reinforcement Learning (RL) to optimize the generation model for poisoned documents, ensuring that the generated poisoned document aligns with the target RAG system's preferences. Experimental results demonstrate that this method can effectively execute poisoning attacks against most complex RAG systems, achieving an attack success rate (ASR) improvement of up to 0.72 compared to baseline methods. This highlights prevalent deficiencies in current defensive methods and provides critical insights for LLM security research.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく検索拡張生成(RAG)システムは,質問応答(QA)やコンテンツ生成といったタスクのコア技術となっている。
しかし、RAGシステムのデータベースに有毒な文書を注入することで、攻撃者はLSMを操作して、意図した好みに合わせてテキストを生成することができる。
既存の研究は主に単純化されたRAGアーキテクチャに対するホワイトボックス攻撃に焦点を当てている。
本稿では,より複雑で現実的なシナリオについて検討する。攻撃者はRAGシステムの内部構成や実装の詳細の知識を欠き,RAGシステムは単なるレトリバー以上のコンポーネントから構成される。
具体的には、ターゲットRAGシステムをブラックボックスとして扱うエンドツーエンド攻撃パイプラインであるRIPRAG攻撃フレームワークを提案する。
提案手法は,RL(Reinforcement Learning)を用いて有毒文書の生成モデルを最適化し,生成した有毒文書がターゲットRAGシステムの嗜好と一致することを保証する。
実験結果から,本手法はRAGシステムに対する毒性攻撃を効果的に実行し,攻撃成功率(ASR)を0.72まで向上させることができた。
このことは、現在の防衛手法の欠陥を浮き彫りにし、LLMセキュリティ研究に重要な洞察を与えている。
関連論文リスト
- The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Chain-of-Thought Poisoning Attacks against R1-based Retrieval-Augmented Generation Systems [39.05753852489526]
既存の敵攻撃法は通常、知識ベース中毒を利用してRAGシステムの脆弱性を調査する。
本稿では、R1ベースのRAGシステムからの推論プロセステンプレートを用いて、誤った知識を敵の文書にラップし、それらを知識ベースに注入してRAGシステムを攻撃する。
提案手法の鍵となる考え方は,モデルのトレーニング信号に一致したチェーン・オブ・シンクレット・パターンをシミュレートすることで,正史的推論プロセスとしてモデルによって誤解される可能性がある,というものである。
論文 参考訳(メタデータ) (2025-05-22T08:22:46Z) - Traceback of Poisoning Attacks to Retrieval-Augmented Generation [10.19539347377776]
研究によると、RAGの毒殺攻撃に対する感受性が明らかとなり、攻撃者は知識データベースに有毒なテキストを注入した。
既存の防衛は、主に推論時間の緩和に焦点を当てており、高度な攻撃に対して不十分であることが証明されている。
本稿では,RAGの最初のトレースバックシステムであるRAGForensicsを紹介し,攻撃に責任を持つ知識データベース内の有毒テキストを識別する。
論文 参考訳(メタデータ) (2025-04-30T14:10:02Z) - The RAG Paradox: A Black-Box Attack Exploiting Unintentional Vulnerabilities in Retrieval-Augmented Generation Systems [8.347617177093056]
RAGパラドックスに基づく現実的なブラックボックス攻撃を導入する。
文書検索性の改善に重点を置く以前の作業とは異なり,攻撃手法は検索可能性とユーザ信頼の両方を明示的に考慮している。
本手法は, 内部アクセスのないシステム性能を著しく低下させるとともに, 自然に見える有毒な文書を生成する。
論文 参考訳(メタデータ) (2025-02-28T12:32:53Z) - MM-PoisonRAG: Disrupting Multimodal RAG with Local and Global Poisoning Attacks [104.50239783909063]
Retrieval Augmented Generation (RAG) を用いた多モーダル大規模言語モデルは、多モーダル質問応答のようなかなり高度なタスクを持つ。
この外部知識への依存は、知識中毒攻撃(英語版)という、危険だが未発見の安全リスクを引き起こす。
マルチモーダルRAGにおける知識中毒を体系的に設計する最初のフレームワークであるMM-PoisonRAGを提案する。
論文 参考訳(メタデータ) (2025-02-25T04:23:59Z) - Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks [12.061098193438022]
Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。
本稿では,RAGシステムのエンドツーエンドの間接的なプロンプト操作に対する安全性について検討する。
論文 参考訳(メタデータ) (2024-08-09T12:26:05Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - PoisonedRAG: Knowledge Corruption Attacks to Retrieval-Augmented Generation of Large Language Models [45.409248316497674]
大規模言語モデル(LLM)は、その例外的な生成能力により、顕著な成功を収めた。
Retrieval-Augmented Generation (RAG)は、これらの制限を緩和するための最先端技術である。
RAGシステムにおける知識データベースは,新たな,実用的な攻撃面を導入している。
この攻撃面に基づいて,RAGに対する最初の知識汚職攻撃であるPoisonedRAGを提案する。
論文 参考訳(メタデータ) (2024-02-12T18:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。