論文の概要: AIP: Subverting Retrieval-Augmented Generation via Adversarial Instructional Prompt
- arxiv url: http://arxiv.org/abs/2509.15159v1
- Date: Thu, 18 Sep 2025 17:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.357769
- Title: AIP: Subverting Retrieval-Augmented Generation via Adversarial Instructional Prompt
- Title(参考訳): AIP: 対向的指導プロンプトによる検索拡張生成の変換
- Authors: Saket S. Chaturvedi, Gaurav Bagwe, Lan Zhang, Xiaoyong Yuan,
- Abstract要約: 本稿では,RAG出力を操作するために,対向的命令プロンプトを利用した新たな攻撃法を提案する。
AIPは、システムの整合性を損なうために、いかに信頼されているように見えるインターフェースコンポーネントを武器化できるかを明らかにしている。
本稿では,ユーザクエリの現実的な言語的変動をシミュレートする多様なクエリ生成戦略を提案する。
- 参考スコア(独自算出の注目度): 7.3105371206711185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) enhances large language models (LLMs) by retrieving relevant documents from external sources to improve factual accuracy and verifiability. However, this reliance introduces new attack surfaces within the retrieval pipeline, beyond the LLM itself. While prior RAG attacks have exposed such vulnerabilities, they largely rely on manipulating user queries, which is often infeasible in practice due to fixed or protected user inputs. This narrow focus overlooks a more realistic and stealthy vector: instructional prompts, which are widely reused, publicly shared, and rarely audited. Their implicit trust makes them a compelling target for adversaries to manipulate RAG behavior covertly. We introduce a novel attack for Adversarial Instructional Prompt (AIP) that exploits adversarial instructional prompts to manipulate RAG outputs by subtly altering retrieval behavior. By shifting the attack surface to the instructional prompts, AIP reveals how trusted yet seemingly benign interface components can be weaponized to degrade system integrity. The attack is crafted to achieve three goals: (1) naturalness, to evade user detection; (2) utility, to encourage use of prompts; and (3) robustness, to remain effective across diverse query variations. We propose a diverse query generation strategy that simulates realistic linguistic variation in user queries, enabling the discovery of prompts that generalize across paraphrases and rephrasings. Building on this, a genetic algorithm-based joint optimization is developed to evolve adversarial prompts by balancing attack success, clean-task utility, and stealthiness. Experimental results show that AIP achieves up to 95.23% ASR while preserving benign functionality. These findings uncover a critical and previously overlooked vulnerability in RAG systems, emphasizing the need to reassess the shared instructional prompts.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、関連する文書を外部ソースから取得し、事実の精度と妥当性を向上させることで、大きな言語モデル(LLM)を強化する。
しかし、この依存は、LLM自体を超えて、検索パイプライン内に新たな攻撃面を導入している。
以前のRAG攻撃はそのような脆弱性を露呈していたが、ユーザクエリの操作に大きく依存している。
この狭い焦点は、より現実的でステルス的なベクトルを見落としている:命令プロンプトは、広く再利用され、公開され、ほとんど監査されない。
彼らの暗黙の信頼は、敵がRAGの振る舞いを隠蔽的に操作するための説得力のある標的となる。
本稿では,AIP(Adversarial Instructional Prompt)に対する新たな攻撃手法を提案する。
攻撃面を命令プロンプトにシフトすることで、AIPはシステムの整合性を損なうために、いかに信頼されているように見えるインターフェースコンポーネントを武器化できるかを明らかにする。
この攻撃は,(1) ユーザ検出を回避する自然性,(2) プロンプトの使用を促進する実用性,(3) 多様なクエリのバリエーションにまたがって有効なロバスト性という3つの目標を達成するために開発された。
ユーザクエリの現実的な言語的変動をシミュレートする多様なクエリ生成戦略を提案し,パラフレーズや言い換えを一般化するプロンプトの発見を可能にする。
これに基づいて、遺伝的アルゴリズムに基づく共同最適化が開発され、攻撃の成功、クリーンタスクのユーティリティ、ステルスネスのバランスをとることで、敵のプロンプトを進化させる。
実験の結果、AIPは良性機能を保ちながら最大95.23%のASRを達成することが示された。
これらの発見は、RAGシステムにおいて重要で、これまで見過ごされていた脆弱性を明らかにし、共有命令プロンプトを再評価する必要性を強調した。
関連論文リスト
- Explicit Vulnerability Generation with LLMs: An Investigation Beyond Adversarial Attacks [0.5218155982819203]
大規模言語モデル(LLM)は、コードアシスタントとしてますます使われている。
本研究は、より直接的な脅威について検討する。オープンソースのLLMは、トリガー時に脆弱性のあるコードを生成する。
論文 参考訳(メタデータ) (2025-07-14T08:36:26Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation [18.098228823748617]
本稿では,RAGデータストア内の文書を対象としたメンバシップ推論手法であるInterrogation Attack (IA)を提案する。
ステルス性を維持しながら、たった30クエリで推論に成功したことを実証します。
我々は,様々なRAG構成に対する事前推論攻撃に対して,TPR@1%FPRの2倍の改善が観察された。
論文 参考訳(メタデータ) (2025-02-01T04:01:18Z) - Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks [12.061098193438022]
Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。
本稿では,RAGシステムのエンドツーエンドの間接的なプロンプト操作に対する安全性について検討する。
論文 参考訳(メタデータ) (2024-08-09T12:26:05Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。