論文の概要: Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking
- arxiv url: http://arxiv.org/abs/2409.08045v1
- Date: Thu, 12 Sep 2024 13:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 16:29:19.297965
- Title: Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking
- Title(参考訳): 脱獄とデータ抽出:脱獄によるRAGによる大規模・深刻度推論に対する攻撃結果のエスカレート
- Authors: Stav Cohen, Ron Bitton, Ben Nassi,
- Abstract要約: 我々は、GenAIモデルをジェイルブレイクする能力により、攻撃者はRAGベースのアプリケーションに対する攻撃の結果をエスカレートできることを示した。
論文の前半では、攻撃者がRAG文書抽出攻撃に対してRAGメンバシップ推論攻撃をエスカレートできることが示されている。
論文の第2部では、攻撃者がRAGデータ中毒攻撃の規模を拡大し、単一のアプリケーションに妥協することで、GenAIエコシステム全体を妥協できることを示す。
- 参考スコア(独自算出の注目度): 6.904930679944526
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we show that with the ability to jailbreak a GenAI model, attackers can escalate the outcome of attacks against RAG-based GenAI-powered applications in severity and scale. In the first part of the paper, we show that attackers can escalate RAG membership inference attacks and RAG entity extraction attacks to RAG documents extraction attacks, forcing a more severe outcome compared to existing attacks. We evaluate the results obtained from three extraction methods, the influence of the type and the size of five embeddings algorithms employed, the size of the provided context, and the GenAI engine. We show that attackers can extract 80%-99.8% of the data stored in the database used by the RAG of a Q&A chatbot. In the second part of the paper, we show that attackers can escalate the scale of RAG data poisoning attacks from compromising a single GenAI-powered application to compromising the entire GenAI ecosystem, forcing a greater scale of damage. This is done by crafting an adversarial self-replicating prompt that triggers a chain reaction of a computer worm within the ecosystem and forces each affected application to perform a malicious activity and compromise the RAG of additional applications. We evaluate the performance of the worm in creating a chain of confidential data extraction about users within a GenAI ecosystem of GenAI-powered email assistants and analyze how the performance of the worm is affected by the size of the context, the adversarial self-replicating prompt used, the type and size of the embeddings algorithm employed, and the number of hops in the propagation. Finally, we review and analyze guardrails to protect RAG-based inference and discuss the tradeoffs.
- Abstract(参考訳): 本稿では,攻撃者がGenAIモデルをジェイルブレイクする能力により,RAGベースのGenAIアプリケーションに対する攻撃結果を重大かつ大規模にエスカレートできることを示す。
論文の前半では、攻撃者がRAGメンバシップ推論攻撃やRAGエンティティ抽出攻撃をRAGドキュメント抽出攻撃にエスカレートできることを示し、既存の攻撃と比較してより深刻な結果をもたらすことを示した。
提案手法は,3つの抽出手法,5つの組込みアルゴリズムのタイプとサイズの影響,提供コンテキストのサイズ,およびGenAIエンジンを用いて評価した。
攻撃者は、Q&AチャットボットのRAGが使用するデータベースに格納されているデータの80%-99.8%を抽出できることを示す。
本論文の第2部では,攻撃者が1つのGenAIをベースとしたアプリケーションによるRAGデータ中毒攻撃の規模を拡大し,GenAIエコシステム全体を改善し,より大きな損害を被ることを示す。
これは、エコシステム内のコンピュータワームの連鎖反応を誘発する敵の自己複製プロンプトを作成し、影響を受ける各アプリケーションに対して悪意のあるアクティビティの実行を強制し、追加のアプリケーションのRAGを妥協させることによって行われる。
我々は、GenAIを利用した電子メールアシスタントのGenAIエコシステム内のユーザに関する機密データ抽出の連鎖を作成する際のワームの性能を評価し、ワームのパフォーマンスが、コンテキストのサイズ、使用する対向的な自己複製プロンプト、組込みアルゴリズムのタイプとサイズ、伝播中のホップの数によってどのように影響を受けるかを分析する。
最後に、RAGに基づく推論を保護し、トレードオフについて議論するためにガードレールをレビューし、分析する。
関連論文リスト
- Backdoored Retrievers for Prompt Injection Attacks on Retrieval Augmented Generation of Large Language Models [0.0]
Retrieval Augmented Generation (RAG)は、大規模言語モデルと最新の情報検索を組み合わせることでこの問題に対処する。
本稿では、誤報以外の有害な目的に焦点をあて、RAGに対する即時注射攻撃について検討する。
我々は,既存のコーパス中毒技術を構築し,高密度レトリバー部品の微調整を目的とした新しいバックドアアタックを提案する。
論文 参考訳(メタデータ) (2024-10-18T14:02:34Z) - Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models [21.01313168005792]
我々は、意見操作のためのブラックボックス攻撃に直面した場合、検索強化生成(RAG)モデルの脆弱性を明らかにする。
このような攻撃がユーザの認知と意思決定に与える影響について検討する。
論文 参考訳(メタデータ) (2024-07-18T17:55:55Z) - Rethinking Targeted Adversarial Attacks For Neural Machine Translation [56.10484905098989]
本報告では,NMTが標的とする敵攻撃に対して,信頼性の高い攻撃結果をもたらす可能性のある新たな設定を提案する。
新しい設定では、敵の例を作成するためのTWGA(Targeted Word Gradient Adversarial Attack)手法を提案する。
実験の結果,提案手法はNMTシステムに対する敵攻撃に対して忠実な攻撃効果をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-07T10:16:06Z) - Corpus Poisoning via Approximate Greedy Gradient Descent [48.5847914481222]
本稿では,HotFlip法をベースとした高密度検索システムに対する新たな攻撃手法として,近似グレディ・グラディエント・Descentを提案する。
提案手法は,複数のデータセットと複数のレトリバーを用いて高い攻撃成功率を達成し,未知のクエリや新しいドメインに一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-07T17:02:35Z) - Here Comes The AI Worm: Unleashing Zero-click Worms that Target GenAI-Powered Applications [6.904930679944526]
Morris IIは、敵対的な自己複製プロンプトを用いて、GenAIエコシステムをターゲットにした最初のワームである。
我々は、GenAIを利用した電子メールアシスタントに対するMoris IIの適用を2つのユースケースで実証した。
論文 参考訳(メタデータ) (2024-03-05T09:37:13Z) - PRAT: PRofiling Adversarial aTtacks [52.693011665938734]
PRofiling Adversarial aTacks (PRAT) の新たな問題点について紹介する。
敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。
AIDを用いてPRATの目的のための新しいフレームワークを考案する。
論文 参考訳(メタデータ) (2023-09-20T07:42:51Z) - ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox
Generative Model Trigger [11.622811907571132]
テキストバックドア攻撃は既存のシステムに現実的な脅威をもたらす。
GPT-4のような最先端の生成モデルでは、リライトを異常なレベルに押し上げるため、そのような攻撃はより検出しにくくなっている。
我々は、バックドア攻撃ツールとしてのブラックボックス生成モデルの役割を包括的に調査し、相対防衛戦略の研究の重要性を強調した。
論文 参考訳(メタデータ) (2023-04-27T19:26:25Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。