論文の概要: Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning
- arxiv url: http://arxiv.org/abs/2402.08416v1
- Date: Tue, 13 Feb 2024 12:40:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 11:19:24.142333
- Title: Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning
- Title(参考訳): Pandora、脱獄用GPTを検索で強化
- Authors: Gelei Deng, Yi Liu, Kailong Wang, Yuekang Li, Tianwei Zhang, Yang Liu,
- Abstract要約: 本研究では,大規模言語モデル(LLM)に対する間接的ジェイルブレイク攻撃について検討する。
本稿では,新たな攻撃ベクトルRetrieval Augmented Generation Poisoningを紹介する。
Pandoraは、即座に操作することでLCMとRAGのシナジーを利用して、予期せぬ応答を生成する。
- 参考スコア(独自算出の注目度): 19.45092401994873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models~(LLMs) have gained immense popularity and are being increasingly applied in various domains. Consequently, ensuring the security of these models is of paramount importance. Jailbreak attacks, which manipulate LLMs to generate malicious content, are recognized as a significant vulnerability. While existing research has predominantly focused on direct jailbreak attacks on LLMs, there has been limited exploration of indirect methods. The integration of various plugins into LLMs, notably Retrieval Augmented Generation~(RAG), which enables LLMs to incorporate external knowledge bases into their response generation such as GPTs, introduces new avenues for indirect jailbreak attacks. To fill this gap, we investigate indirect jailbreak attacks on LLMs, particularly GPTs, introducing a novel attack vector named Retrieval Augmented Generation Poisoning. This method, Pandora, exploits the synergy between LLMs and RAG through prompt manipulation to generate unexpected responses. Pandora uses maliciously crafted content to influence the RAG process, effectively initiating jailbreak attacks. Our preliminary tests show that Pandora successfully conducts jailbreak attacks in four different scenarios, achieving higher success rates than direct attacks, with 64.3\% for GPT-3.5 and 34.8\% for GPT-4.
- Abstract(参考訳): 大規模言語モデル~(LLM)は広く普及し、様々な領域で採用されている。
したがって、これらのモデルの安全性を確保することが最重要となる。
LLMを操作して悪意のあるコンテンツを生成するJailbreak攻撃は、重大な脆弱性として認識されている。
既存の研究は主にLLMに対する直接的ジェイルブレイク攻撃に焦点を当てているが、間接的手法の探索は限られている。
様々なプラグインの統合、特にRetrieval Augmented Generation~(RAG)により、LPMは外部知識ベースをGPTなどの応答生成に組み込むことができるようになり、間接的ジェイルブレイク攻撃のための新たな方法が導入された。
このギャップを埋めるために, LLM, 特に GPT に対する間接的ジェイルブレイク攻撃を調査し, Retrieval Augmented Generation Poisoning という新たな攻撃ベクトルを導入した。
この手法であるPandoraは、即座に操作することでLCMとRAGの相乗効果を利用して予期せぬ応答を生成する。
Pandoraは悪意あるコンテンツを使ってRAGプロセスに影響を与え、ジェイルブレイク攻撃を効果的に開始する。
予備試験の結果、Pandoraは4つのシナリオでジェイルブレイク攻撃を成功させ、直接攻撃よりも成功率が高く、GPT-3.5は64.3倍、GPT-4は34.8倍であることがわかった。
関連論文リスト
- SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
LLMの外部特性をターゲットとした新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
本稿では,SIJに対抗するために,セルフリマインダーキーと呼ばれる単純な防御手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。
LLMは脱獄攻撃に弱いため、有害な反応が生じる。
我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文 参考訳(メタデータ) (2024-10-15T10:07:15Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - SoP: Unlock the Power of Social Facilitation for Automatic Jailbreak Attack [16.3259723257638]
私たちはJailbreakプロンプトを自動設計するフレームワークであるSoPを紹介します。
GPT-3.5-1106とGPT-4の安全アライメントを回避し,攻撃成功率88%と60%を達成した。
論文 参考訳(メタデータ) (2024-07-02T02:58:29Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks [0.0]
本研究では,ジェイルブレイクプロンプトを効率的に作成するための簡単なブラックボックス手法を提案する。
本手法は有害なプロンプトを目的のLSMを直接利用した良性表現に反復的に変換する。
提案手法は, 平均5回の質問に対して, 80%以上の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-01-18T08:36:54Z) - Tree of Attacks: Jailbreaking Black-Box LLMs Automatically [34.36053833900958]
本稿では,ジェイルブレイクを自動生成するTAP(Tree of Attacks with Pruning)を提案する。
TAPは、最先端のLDMを80%以上にわたってジェイルブレイクするプロンプトを生成する。
TAPはまた、LlamaGuardのような最先端のガードレールによって保護されたLLMをジェイルブレイクすることができる。
論文 参考訳(メタデータ) (2023-12-04T18:49:23Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks [12.540530764250812]
我々は、既知の(そして可能な)ジェイルブレイクの形式主義と分類法を提案する。
私たちは3700のjailbreakプロンプトにまたがるモデル出力のデータセットを4つのタスクでリリースしています。
論文 参考訳(メタデータ) (2023-05-24T09:57:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。