論文の概要: Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction
- arxiv url: http://arxiv.org/abs/2402.18104v2
- Date: Mon, 10 Jun 2024 11:20:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 01:13:35.277619
- Title: Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction
- Title(参考訳): 質問と回答:ディグライズとリコンストラクションによる少数のクエリにおける大規模言語モデルのジェイルブレーク
- Authors: Tong Liu, Yingjie Zhang, Zhe Zhao, Yinpeng Dong, Guozhu Meng, Kai Chen,
- Abstract要約: 安全微調整におけるバイアスの脆弱性を特定することによって,LLMのセキュリティに関する理論的基盤を開拓した。
我々は、偽装による有害な指示を隠蔽するDRAというブラックボックスジェイルブレイク法を設計する。
我々は、さまざまなオープンソースおよびクローズドソースモデルでDRAを評価し、最先端のジェイルブレイク成功率と攻撃効率を示す。
- 参考スコア(独自算出の注目度): 31.171418109420276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large language models (LLMs) have demonstrated notable success across various tasks, but the trustworthiness of LLMs is still an open problem. One specific threat is the potential to generate toxic or harmful responses. Attackers can craft adversarial prompts that induce harmful responses from LLMs. In this work, we pioneer a theoretical foundation in LLMs security by identifying bias vulnerabilities within the safety fine-tuning and design a black-box jailbreak method named DRA (Disguise and Reconstruction Attack), which conceals harmful instructions through disguise and prompts the model to reconstruct the original harmful instruction within its completion. We evaluate DRA across various open-source and closed-source models, showcasing state-of-the-art jailbreak success rates and attack efficiency. Notably, DRA boasts a 91.1% attack success rate on OpenAI GPT-4 chatbot.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は様々なタスクにおいて顕著な成功を収めてきたが,LLMの信頼性は依然として未解決の問題である。
特定の脅威の1つは、有害または有害な反応を引き起こす可能性があることである。
攻撃者はLSMから有害な反応を引き起こす敵のプロンプトを作れます。
本研究では,DRA(Disguise and Restruction Attack)と呼ばれるブラックボックスジェイルブレイク法を設計し,偽装による有害な命令を隠蔽し,その完了時にオリジナルの有害な命令を再構築するようモデルに促すことにより,LLMのセキュリティの理論的基盤を開拓する。
我々は、さまざまなオープンソースおよびクローズドソースモデルでDRAを評価し、最先端のジェイルブレイク成功率と攻撃効率を示す。
特に、DRAはOpenAI GPT-4チャットボットの攻撃成功率91.1%を誇っている。
関連論文リスト
- DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。
大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。
我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-11-14T01:48:08Z) - SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。
提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Neural Carrier Articles [10.109063166962079]
本稿では,言語モデルモデル(LLM)の注意を移す新しいタイプのジェイルブレイク攻撃を提案する。
提案攻撃では,知識グラフとLLMを利用して,禁止クエリのトピックに類似したキャリア記事を自動的に生成する。
実験の結果,提案手法はクロード3を除いて,高い成功率の目標LLMを投獄できることがわかった。
論文 参考訳(メタデータ) (2024-08-20T20:35:04Z) - Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation [44.09578786678573]
大きな言語モデル(LLM)は暗黙のトラブルメーカーである。
LLMは有害なデータ収集や隠蔽攻撃に使用できる。
私たちはこのデコード戦略をJVD(Jailbreak Value Decoding)と名付けます。
論文 参考訳(メタデータ) (2024-08-20T09:11:21Z) - Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models [21.252514293436437]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃に対する分析ベースジェイルブレイク(ABJ)を提案する。
ABJはGPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成する。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models [34.557309967708406]
本研究では,このような命令追従型音声モデルの潜在的な脆弱性を,敵対的攻撃や脱獄に対して検討する。
我々は、人間の関与なしに、ホワイトボックスとブラックボックスの攻撃設定の両方でジェイルブレイクSLMの逆例を生成するアルゴリズムを設計する。
本モデルでは,発話指示による対話データに基づいて,音声質問応答タスクにおける最先端のパフォーマンスを達成し,安全性と有用性の両方の指標で80%以上をスコア付けした。
論文 参考訳(メタデータ) (2024-05-14T04:51:23Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Leveraging the Context through Multi-Round Interactions for Jailbreaking Attacks [55.603893267803265]
大規模言語モデル(LLM)は、脱獄攻撃の影響を受けやすい。
脱獄攻撃は、攻撃クエリを微調整することで有害な情報を抽出することを目的としている。
我々は、コンテキストインタラクションアタックと呼ばれる新しい攻撃形式に焦点を当てる。
論文 参考訳(メタデータ) (2024-02-14T13:45:19Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。