論文の概要: DeRAG: Black-box Adversarial Attacks on Multiple Retrieval-Augmented Generation Applications via Prompt Injection
- arxiv url: http://arxiv.org/abs/2507.15042v1
- Date: Sun, 20 Jul 2025 16:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.170054
- Title: DeRAG: Black-box Adversarial Attacks on Multiple Retrieval-Augmented Generation Applications via Prompt Injection
- Title(参考訳): DeRAG: プロンプトインジェクションによる複数検索拡張ジェネレーションアプリケーションに対するブラックボックス対応攻撃
- Authors: Jerry Wang, Fang Yu,
- Abstract要約: アドリシャル・プロンプト・アタックは、レトリーバル・アフュージョンド・ジェネレーション(RAG)システムの信頼性を大きく変える可能性がある。
本稿では, RAGに基づく質問応答に対して, 対角的プロンプト接尾辞を最適化するために, 微分進化(DE)を適用した新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.9499594220629591
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Adversarial prompt attacks can significantly alter the reliability of Retrieval-Augmented Generation (RAG) systems by re-ranking them to produce incorrect outputs. In this paper, we present a novel method that applies Differential Evolution (DE) to optimize adversarial prompt suffixes for RAG-based question answering. Our approach is gradient-free, treating the RAG pipeline as a black box and evolving a population of candidate suffixes to maximize the retrieval rank of a targeted incorrect document to be closer to real world scenarios. We conducted experiments on the BEIR QA datasets to evaluate attack success at certain retrieval rank thresholds under multiple retrieving applications. Our results demonstrate that DE-based prompt optimization attains competitive (and in some cases higher) success rates compared to GGPP to dense retrievers and PRADA to sparse retrievers, while using only a small number of tokens (<=5 tokens) in the adversarial suffix. Furthermore, we introduce a readability-aware suffix construction strategy, validated by a statistically significant reduction in MLM negative log-likelihood with Welch's t-test. Through evaluations with a BERT-based adversarial suffix detector, we show that DE-generated suffixes evade detection, yielding near-chance detection accuracy.
- Abstract(参考訳): 逆アプロンプト攻撃は、不正な出力を生成するためにそれらを再度ランク付けすることで、レトリーバル拡張生成(RAG)システムの信頼性を著しく変更することができる。
本稿では,RAGに基づく質問応答に対する対角的プロンプト接尾辞を最適化するために,微分進化(DE)を適用した新しい手法を提案する。
我々のアプローチは勾配のないもので、RAGパイプラインをブラックボックスとして扱い、ターゲットの不正文書の検索ランクを現実のシナリオに近づけるために、候補サフィックスの集団を進化させる。
BEIR QAデータセットを用いて,複数の検索アプリケーションにおいて,特定の検索ランク閾値における攻撃成功度を評価する実験を行った。
以上の結果から,高密度検索器ではGGPP,スパース検索器ではPRADAが,対向接尾辞では少ないトークン(=5トークン)しか使用せず,D-based prompt optimizationはGGPPと競合する(場合によっては高い)成功率を達成できることが示唆された。
さらに,Welch の t-test を用いて,MLM の負の対数類似度を統計的に顕著に低減し,可読性を考慮した接尾辞構築戦略を導入する。
BERTをベースとした逆接接尾辞検出装置を用いて評価した結果,DE生成した接尾辞が回避され,近接接尾辞検出精度が得られた。
関連論文リスト
- CPA-RAG:Covert Poisoning Attacks on Retrieval-Augmented Generation in Large Language Models [15.349703228157479]
Retrieval-Augmented Generation (RAG)は、外部知識を取り入れた大規模言語モデル(LLM)を強化する。
既存のRAGシステムに対する中毒法には、一般化の欠如や、敵のテキストにおける流布の欠如など、制限がある。
CPA-RAGは,検索プロセスを操作することで,対象の回答を誘導するクエリ関連テキストを生成するブラックボックスの対向フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T11:48:32Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - CAMOUFLAGE: Exploiting Misinformation Detection Systems Through LLM-driven Adversarial Claim Transformation [4.02943411607022]
既存のブラックボックステキストベースの敵攻撃は、証拠に基づく誤情報検出システムには不適である。
本稿では,2エージェントシステムを用いた反復的LCM駆動型アプローチであるCAMOUFLAGEについて述べる。
最近の2つの学術システムと2つの実世界のAPIを含む4つのシステムでCAMOUFLAGEを評価し、平均的な攻撃成功率は46.92%である。
論文 参考訳(メタデータ) (2025-05-03T19:14:24Z) - DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [101.52204404377039]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - FlippedRAG: Black-Box Opinion Manipulation Adversarial Attacks to Retrieval-Augmented Generation Models [22.35026334463735]
我々は、ブラックボックスRAGシステムに対するトランスファーベースの敵攻撃であるFlippedRAGを提案する。
FlippedRAGは、RAG生成反応の意見において平均50%の方向シフトを達成する。
これらの結果は、RAGシステムのセキュリティと信頼性を確保するために革新的な防衛ソリューションを開発する緊急の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-01-06T12:24:57Z) - Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks [12.061098193438022]
Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。
本稿では,RAGシステムのエンドツーエンドの間接的なプロンプト操作に対する安全性について検討する。
論文 参考訳(メタデータ) (2024-08-09T12:26:05Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを50.83%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - Corpus Poisoning via Approximate Greedy Gradient Descent [48.5847914481222]
本稿では,HotFlip法をベースとした高密度検索システムに対する新たな攻撃手法として,近似グレディ・グラディエント・Descentを提案する。
提案手法は,複数のデータセットと複数のレトリバーを用いて高い攻撃成功率を達成し,未知のクエリや新しいドメインに一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T17:02:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。