論文の概要: When "Competency" in Reasoning Opens the Door to Vulnerability: Jailbreaking LLMs via Novel Complex Ciphers
- arxiv url: http://arxiv.org/abs/2402.10601v2
- Date: Wed, 23 Oct 2024 00:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:54:01.182811
- Title: When "Competency" in Reasoning Opens the Door to Vulnerability: Jailbreaking LLMs via Novel Complex Ciphers
- Title(参考訳): 推論における「コンピテンシー」が脆弱性のドアを開く:新しい複雑暗号によるLLMのジェイルブレイク
- Authors: Divij Handa, Zehua Zhang, Amir Saeidi, Chitta Baral,
- Abstract要約: 我々は,大規模言語モデル (LLM) をジェイルブレイクするための新しい手法である Custom Encryptions (ACE) を用いた攻撃を提案する。
我々は、ACEが4つの最先端LCMに対して有効であることを評価し、オープンソースモデルでは最大66%、オープンソースモデルでは88%のアタック成功率(ASR)を達成した。
これに基づいて、カスタム暗号化(LACE)を用いたレイヤ攻撃(Layered Attacks)を導入し、ASRをさらに強化するために、カスタム暗号を通じて複数のレイヤの暗号化を利用する。
- 参考スコア(独自算出の注目度): 35.40596409566326
- License:
- Abstract: Recent advancements in the safety of Large Language Models (LLMs) have primarily focused on mitigating attacks crafted in natural language or in common encryption techniques like Base64. However, new models which often possess better reasoning capabilities, open the door to new attack vectors that were previously non-existent in older models. This seems counter-intuitive at first glance, but these advanced models can decipher more complex cryptic queries that previous models could not, making them susceptible to attacks using such prompts. To exploit this vulnerability, we propose Attacks using Custom Encryptions (ACE), a novel method to jailbreak LLMs by leveraging custom encryption schemes. We evaluate the effectiveness of ACE on four state-of-the-art LLMs, achieving Attack Success Rates (ASR) of up to 66% on close-source models and 88% on open-source models. Building upon this, we introduce Layered Attacks using Custom Encryptions (LACE), which employs multiple layers of encryption through our custom ciphers to further enhance the ASR. Our findings demonstrate that LACE significantly enhances the ability to jailbreak LLMs, increasing the ASR of GPT-4o from 40% to 78%, a 38% improvement. Our results highlight that the advanced capabilities of LLMs introduce unforeseen vulnerabilities to complex attacks. Specifically complex and layered ciphers increase the chance of jailbreaking.
- Abstract(参考訳): LLM(Large Language Models)の安全性の最近の進歩は、主に自然言語やBase64のような共通暗号化技術で作られた攻撃を緩和することに焦点を当てている。
しかし、しばしばより良い推論能力を持つ新しいモデルは、以前のモデルでは存在しなかった新しい攻撃ベクトルへの扉を開く。
これは一見すると直感的とは思えないが、これらの先進的なモデルは以前のモデルではできなかったより複雑な暗号クエリを解読でき、そのようなプロンプトを使って攻撃を受けやすい。
この脆弱性を悪用するために、カスタム暗号化(ACE)を用いたアタック(Attacks)を提案する。
我々は、ACEが4つの最先端LCMに対して有効であることを評価し、オープンソースモデルでは最大66%、オープンソースモデルでは88%のアタック成功率(ASR)を達成した。
これに基づいて、カスタム暗号化(LACE)を用いたレイヤ攻撃(Layered Attacks)を導入し、ASRをさらに強化するために、カスタム暗号を通じて複数のレイヤの暗号化を利用する。
以上より LACE は LLM の脱獄能力を大幅に向上させ, GPT-4o の ASR を 40% から 78% に増加させ, 38% の改善を認めた。
LLMの高度な能力は、複雑な攻撃に対して予期せぬ脆弱性をもたらす。
特に複雑で層状の暗号は、脱獄の可能性を増大させる。
関連論文リスト
- SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。
提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - RED QUEEN: Safeguarding Large Language Models against Concealed
Multi-Turn Jailbreaking [30.67803190789498]
我々は,害の防止という目的の下に悪意のある意図を隠蔽し,マルチターンシナリオを構築する新しいジェイルブレイク手法RED QUEEN ATTACKを提案する。
我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。
安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
論文 参考訳(メタデータ) (2024-09-26T01:24:17Z) - Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models [21.252514293436437]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃に対する分析ベースジェイルブレイク(ABJ)を提案する。
ABJはGPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成する。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models [2.852785344249702]
我々は,大規模言語モデルにおける生成タスクに対するバックドアアタックを軽減するために,CLEANGENという新しい推論時間ディフェンスを開発した。
CLEANGENは最先端のSOTA (State-of-the-art) LLMと互換性がある。
以上の結果から,CLEANGENは5つのSOTAベースライン防御よりも攻撃成功率(ASR)が低いことが示唆された。
論文 参考訳(メタデータ) (2024-06-18T04:10:38Z) - CodeChameleon: Personalized Encryption Framework for Jailbreaking Large
Language Models [49.60006012946767]
パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。
我々は、7つの大規模言語モデルに関する広範な実験を行い、最先端の平均アタック成功率(ASR)を達成する。
GPT-4-1106上で86.6%のASRを実現する。
論文 参考訳(メタデータ) (2024-02-26T16:35:59Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。