論文の概要: Jailbreaking Proprietary Large Language Models using Word Substitution
Cipher
- arxiv url: http://arxiv.org/abs/2402.10601v1
- Date: Fri, 16 Feb 2024 11:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:25:55.558383
- Title: Jailbreaking Proprietary Large Language Models using Word Substitution
Cipher
- Title(参考訳): 単語置換暗号を用いた一次大言語モデルの脱獄
- Authors: Divij Handa, Advait Chirmule, Bimal Gajera, Chitta Baral
- Abstract要約: 暗号技術を用いて符号化したジェイルブレイクプロンプトを提示する。
我々は、安全でない単語を安全な単語でマッピングし、これらのマッピングされた単語を用いて安全でない質問を行う。
実験の結果、最先端のプロプライエタリモデルに対するジェイルブレイク手法の攻撃成功率(最大59.42%)が示されている。
- 参考スコア(独自算出の注目度): 35.36615140853107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are aligned to moral and ethical guidelines but
remain susceptible to creative prompts called Jailbreak that can bypass the
alignment process. However, most jailbreaking prompts contain harmful questions
in the natural language (mainly English), which can be detected by the LLM
themselves. In this paper, we present jailbreaking prompts encoded using
cryptographic techniques. We first present a pilot study on the
state-of-the-art LLM, GPT-4, in decoding several safe sentences that have been
encrypted using various cryptographic techniques and find that a
straightforward word substitution cipher can be decoded most effectively.
Motivated by this result, we use this encoding technique for writing
jailbreaking prompts. We present a mapping of unsafe words with safe words and
ask the unsafe question using these mapped words. Experimental results show an
attack success rate (up to 59.42%) of our proposed jailbreaking approach on
state-of-the-art proprietary models including ChatGPT, GPT-4, and Gemini-Pro.
Additionally, we discuss the over-defensiveness of these models. We believe
that our work will encourage further research in making these LLMs more robust
while maintaining their decoding capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、道徳的および倫理的なガイドラインに沿っているが、アライメントプロセスを回避できるJailbreakと呼ばれる創造的なプロンプトの影響を受けやすいままである。
しかし、ほとんどのジェイルブレイクプロンプトは自然言語(主に英語)で有害な質問を含んでおり、LLM自身で検出することができる。
本稿では,暗号技術を用いたジェイルブレイクプロンプトを提案する。
まず,様々な暗号化技術を用いて暗号化された複数の安全な文を復号する,最先端のllm,gpt-4に関するパイロット研究を行い,簡単な単語置換暗号を最も効果的に復号できることを示す。
この結果から,この符号化手法をジェイルブレイクプロンプトの書込みに利用した。
我々は、安全でない単語を安全な単語でマッピングし、これらのマッピングされた単語を用いて安全でない質問を行う。
実験の結果、ChatGPT、GPT-4、Gemini-Proといった最先端のプロプライエタリモデルに対するジェイルブレイク手法の攻撃成功率(最大59.42%)が示された。
さらに,これらのモデルの過剰防御性についても論じる。
我々は、これらのLCMを復号化能力を維持しつつ、より堅牢にするためのさらなる研究を後押しすると信じている。
関連論文リスト
- SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
LLMの外部特性をターゲットとした新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
本稿では,SIJに対抗するために,セルフリマインダーキーと呼ばれる単純な防御手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Endless Jailbreaks with Bijection Learning [3.5963161678592828]
ランダムに生成したエンコーディングを用いて,安全性上の脆弱性に対してLLMをファジリングする強力な攻撃アルゴリズムを提案する。
私たちの攻撃は、幅広いフロンティア言語モデルに対して非常に効果的です。
論文 参考訳(メタデータ) (2024-10-02T07:40:56Z) - RED QUEEN: Safeguarding Large Language Models against Concealed
Multi-Turn Jailbreaking [30.67803190789498]
我々は,害の防止という目的の下に悪意のある意図を隠蔽し,マルチターンシナリオを構築する新しいジェイルブレイク手法RED QUEEN ATTACKを提案する。
我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。
安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
論文 参考訳(メタデータ) (2024-09-26T01:24:17Z) - CleanGen: Mitigating Backdoor Attacks for Generation Tasks in Large Language Models [2.852785344249702]
我々は,大規模言語モデルにおける生成タスクに対するバックドアアタックを軽減するために,CLEANGENという新しい推論時間ディフェンスを開発した。
CLEANGENは最先端のSOTA (State-of-the-art) LLMと互換性がある。
以上の結果から,CLEANGENは5つのSOTAベースライン防御よりも攻撃成功率(ASR)が低いことが示唆された。
論文 参考訳(メタデータ) (2024-06-18T04:10:38Z) - CodeChameleon: Personalized Encryption Framework for Jailbreaking Large
Language Models [49.60006012946767]
パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。
我々は、7つの大規模言語モデルに関する広範な実験を行い、最先端の平均アタック成功率(ASR)を達成する。
GPT-4-1106上で86.6%のASRを実現する。
論文 参考訳(メタデータ) (2024-02-26T16:35:59Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。