論文の概要: CodeChameleon: Personalized Encryption Framework for Jailbreaking Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.16717v1
- Date: Mon, 26 Feb 2024 16:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:58:59.138349
- Title: CodeChameleon: Personalized Encryption Framework for Jailbreaking Large
Language Models
- Title(参考訳): CodeChameleon: 大きな言語モデルをジェイルブレイクするためのパーソナライズされた暗号化フレームワーク
- Authors: Huijie Lv, Xiao Wang, Yuansen Zhang, Caishuang Huang, Shihan Dou,
Junjie Ye, Tao Gui, Qi Zhang, Xuanjing Huang
- Abstract要約: パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。
我々は、7つの大規模言語モデルに関する広範な実験を行い、最先端の平均アタック成功率(ASR)を達成する。
GPT-4-1106上で86.6%のASRを実現する。
- 参考スコア(独自算出の注目度): 49.60006012946767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial misuse, particularly through `jailbreaking' that circumvents a
model's safety and ethical protocols, poses a significant challenge for Large
Language Models (LLMs). This paper delves into the mechanisms behind such
successful attacks, introducing a hypothesis for the safety mechanism of
aligned LLMs: intent security recognition followed by response generation.
Grounded in this hypothesis, we propose CodeChameleon, a novel jailbreak
framework based on personalized encryption tactics. To elude the intent
security recognition phase, we reformulate tasks into a code completion format,
enabling users to encrypt queries using personalized encryption functions. To
guarantee response generation functionality, we embed a decryption function
within the instructions, which allows the LLM to decrypt and execute the
encrypted queries successfully. We conduct extensive experiments on 7 LLMs,
achieving state-of-the-art average Attack Success Rate (ASR). Remarkably, our
method achieves an 86.6\% ASR on GPT-4-1106.
- Abstract(参考訳): 特に、モデルの安全性と倫理的プロトコルを回避している 'jailbreaking' を通じて、敵対的な誤用は、Large Language Models (LLMs) にとって大きな課題となる。
本稿では,このような攻撃を成功させるメカニズムを考察し,協調型LLMの安全性機構の仮説,すなわち意図的セキュリティ認識と応答生成を導入する。
この仮説に基づいて,パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。
目的のセキュリティ認識フェーズを省略するため,タスクをコード補完形式に再構成し,パーソナライズされた暗号化機能を使用してクエリを暗号化する。
応答生成機能を保証するために、命令内に復号関数を埋め込み、llmが暗号化クエリの復号と実行を成功させる。
我々は7つのllmについて広範囲な実験を行い,最新の平均攻撃成功率(asr)を達成した。
ここでは, GPT-4-1106 上で86.6 % ASR を達成する。
関連論文リスト
- AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Jailbreaking Proprietary Large Language Models using Word Substitution
Cipher [35.36615140853107]
暗号技術を用いて符号化したジェイルブレイクプロンプトを提示する。
我々は、安全でない単語を安全な単語でマッピングし、これらのマッピングされた単語を用いて安全でない質問を行う。
実験の結果、最先端のプロプライエタリモデルに対するジェイルブレイク手法の攻撃成功率(最大59.42%)が示されている。
論文 参考訳(メタデータ) (2024-02-16T11:37:05Z) - SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware
Decoding [37.88220351224544]
我々は,大規模言語モデル(LLM)の安全性を意識したデコーディング戦略であるSafeDecodingを導入し,ユーザクエリに対する有用かつ無害な応答を生成する。
この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-14T06:54:31Z) - EmojiCrypt: Prompt Encryption for Secure Communication with Large
Language Models [41.090214475309516]
クラウドベースの大規模言語モデル(LLM)は、データ漏洩と機密情報への不正アクセスの重大なリスクを引き起こす。
本稿では,ユーザプライバシ保護のためのシンプルかつ効果的なメカニズムであるEmojiCryptを提案する。
論文 参考訳(メタデータ) (2024-02-08T17:57:11Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [102.17459476527233]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
これらの脆弱性を特定するために,PAIR(Prompt Automatic Iterative Refinement)を提案する。
PAIRは、LCMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language
Models [60.03889043693601]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher [89.45365898940896]
実験により、いくつかの安全領域において、GPT-4の安全性アライメントをバイパスするために、ある暗号がほぼ100%の時間で成功することが示された。
本稿では,ロールプレイのみを使用し,自然言語によるいくつかの実演を行い,これを誘発する新しいSelfCipherを提案する。
論文 参考訳(メタデータ) (2023-08-12T04:05:57Z) - One-out-of-Many Unclonable Cryptography: Definitions, Constructions, and
More [6.375982344506753]
我々は、一対一の強力なアンチ海賊対策秘密鍵暗号(SDE)が、一対一の識別不能な秘密鍵暗号を暗示していることを示す。
我々は,一対一で識別不能な暗号とLWE仮定から,一対一で識別不能な述語暗号(PE)を構築する。
論文 参考訳(メタデータ) (2023-02-20T08:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。