論文の概要: Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks
- arxiv url: http://arxiv.org/abs/2408.05025v1
- Date: Fri, 9 Aug 2024 12:26:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 15:47:15.212618
- Title: Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Application Frameworks
- Title(参考訳): Rag and Roll: LLMベースのアプリケーションフレームワークにおける間接プロンプト操作のエンドツーエンド評価
- Authors: Gianluca De Stefano, Giancarlo Pellegrino, Lea Schönherr,
- Abstract要約: Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。
本稿では,RAGシステムのエンドツーエンドの間接的なプロンプト操作に対する安全性について検討する。
- 参考スコア(独自算出の注目度): 12.061098193438022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval Augmented Generation (RAG) is a technique commonly used to equip models with out of distribution knowledge. This process involves collecting, indexing, retrieving, and providing information to an LLM for generating responses. Despite its growing popularity due to its flexibility and low cost, the security implications of RAG have not been extensively studied. The data for such systems are often collected from public sources, providing an attacker a gateway for indirect prompt injections to manipulate the responses of the model. In this paper, we investigate the security of RAG systems against end-to-end indirect prompt manipulations. First, we review existing RAG framework pipelines deriving a prototypical architecture and identifying potentially critical configuration parameters. We then examine prior works searching for techniques that attackers can use to perform indirect prompt manipulations. Finally, implemented Rag n Roll, a framework to determine the effectiveness of attacks against end-to-end RAG applications. Our results show that existing attacks are mostly optimized to boost the ranking of malicious documents during the retrieval phase. However, a higher rank does not immediately translate into a reliable attack. Most attacks, against various configurations, settle around a 40% success rate, which could rise to 60% when considering ambiguous answers as successful attacks (those that include the expected benign one as well). Additionally, when using unoptimized documents, attackers deploying two of them (or more) for a target query can achieve similar results as those using optimized ones. Finally, exploration of the configuration space of a RAG showed limited impact in thwarting the attacks, where the most successful combination severely undermines functionality.
- Abstract(参考訳): Retrieval Augmented Generation (RAG) は、分散知識を欠くモデルによく用いられる手法である。
このプロセスは、応答を生成するためのLLMへの情報収集、インデックス化、検索、提供を含む。
柔軟性と低コストで人気が高まっているにもかかわらず、RAGのセキュリティへの影響は広く研究されていない。
このようなシステムのデータは、しばしば公開ソースから収集され、攻撃者がモデルの応答を操作する間接的なインジェクションのゲートウェイを提供する。
本稿では,RAGシステムのエンドツーエンドの間接的操作に対する安全性について検討する。
まず、プロトタイプアーキテクチャから派生した既存のRAGフレームワークパイプラインをレビューし、潜在的に重要な構成パラメータを特定する。
次に、攻撃者が間接的なプロンプト操作を行うために使用できるテクニックを探索する先行作業について検討する。
最後に、Rag n Rollを実装した。これは、エンドツーエンドのRAGアプリケーションに対するアタックの有効性を決定するフレームワークである。
以上の結果から,既存の攻撃は検索期間中に悪意のある文書のランキングを上げるために最適化されていることが示唆された。
しかし、上位は直ちに信頼できる攻撃にはならない。
ほとんどの攻撃は、様々な構成に対して、40%の成功率に落ち着き、不明瞭な回答を攻撃として考えると60%に上昇する可能性がある。
さらに、最適化されていないドキュメントを使用する場合、ターゲットクエリに2つ(あるいはそれ以上)をデプロイするアタッカーは、最適化されたドキュメントと同じ結果が得られる。
最後に、RAGの構成空間の探索は、最も成功した組み合わせが機能を著しく損なう攻撃の阻止に限られた影響を示した。
関連論文リスト
- AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。
従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。
エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文 参考訳(メタデータ) (2024-07-17T17:59:47Z) - Seeing Is Believing: Black-Box Membership Inference Attacks Against Retrieval Augmented Generation [9.731903665746918]
我々は、サンプルがRAGシステムの知識データベースの一部であるかどうかを判断するために、メンバーシップ推論攻撃(MIA)を用いる。
次に、Thresholdベースのアタックと機械学習ベースのアタックという、2つの新しいアタック戦略を紹介します。
提案手法を実験的に検証した結果,ROC AUCは82%であった。
論文 参考訳(メタデータ) (2024-06-27T14:58:38Z) - BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models [18.107026036897132]
大規模言語モデル(LLM)は時代遅れの情報と誤ったデータを生成する傾向によって制約される。
Retrieval-Augmented Generation (RAG) は、検索手法の強みと生成モデルを組み合わせることで、これらの制限に対処する。
RAG は LLM に対する新たな攻撃面を導入している。特に RAG データベースは Web などの公開データからしばしば引き出されるためである。
論文 参考訳(メタデータ) (2024-06-03T02:25:33Z) - Query Provenance Analysis for Robust and Efficient Query-based Black-box Attack Defense [11.32992178606254]
我々は、より堅牢で効率的なステートフルディフェンスモデル(SDM)のための新しいアプローチ、QPA(Query Provenance Analysis)を提案する。
QPAは、クエリ間の履歴関係をシーケンスの特徴としてカプセル化し、良性クエリシーケンスと逆性クエリシーケンスの基本的な違いをキャプチャする。
我々は,6つのクエリベースのブラックボックスアタックアルゴリズムを用いて,広く使用されている4つのデータセットに対して,2つのベースラインであるBlackLightとPIHAと比較した。
論文 参考訳(メタデータ) (2024-05-31T06:56:54Z) - Phantom: General Trigger Attacks on Retrieval Augmented Language Generation [30.63258739968483]
我々は,被害者のRAGシステムに侵入する敵に対して,新たな攻撃面を提案する。
最初のステップは、RAGシステムによって回収されるように設計された有毒な文書を作成することである。
第2のステップでは、毒文書内の特殊に製作された敵文字列が、様々な敵攻撃を誘発する。
論文 参考訳(メタデータ) (2024-05-30T21:19:24Z) - Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation [0.9217021281095907]
本稿では,RAGシステムに対して,メンバーシップ推論攻撃(MIA)を行うための効率的かつ使いやすい手法を提案する。
2つのベンチマークデータセットと複数の生成モデルを用いて攻撃の有効性を示す。
本研究は,RAGシステムにおけるセキュリティ対策の実施の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-30T19:46:36Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Certifiably Robust RAG against Retrieval Corruption [58.677292678310934]
Retrieval-augmented Generation (RAG) は、回復汚職攻撃に弱いことが示されている。
本稿では,ロバストRAGを検索汚職攻撃に対する最初の防御フレームワークとして提案する。
論文 参考訳(メタデータ) (2024-05-24T13:44:25Z) - PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented
Generation of Large Language Models [49.606341607616926]
我々は、RAGに対する知識中毒攻撃のセットであるPoisonedRAGを提案する。
我々は、知識中毒攻撃を最適化問題として定式化し、その解決策は有毒テキストの集合である。
以上の結果から,対象の質問に対して5つの有毒テキストを100万テキストのデータベースに注入した場合,攻撃が90%の攻撃成功率を達成する可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:28:36Z) - PRAT: PRofiling Adversarial aTtacks [52.693011665938734]
PRofiling Adversarial aTacks (PRAT) の新たな問題点について紹介する。
敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。
AIDを用いてPRATの目的のための新しいフレームワークを考案する。
論文 参考訳(メタデータ) (2023-09-20T07:42:51Z) - Generalizable Black-Box Adversarial Attack with Meta Learning [54.196613395045595]
ブラックボックス攻撃では、ターゲットモデルのパラメータが不明であり、攻撃者はクエリのフィードバックに基づいて、クエリの予算に基づいて摂動を成功させることを目指している。
本稿では,実例レベルの逆転可能性という,過去の攻撃に対するフィードバック情報を活用することを提案する。
この2種類の逆転送性を持つフレームワークは,市販のクエリベースのアタック手法と自然に組み合わせて性能を向上させることができる。
論文 参考訳(メタデータ) (2023-01-01T07:24:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。