論文の概要: CodeChameleon: Personalized Encryption Framework for Jailbreaking Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.16717v1
- Date: Mon, 26 Feb 2024 16:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:58:59.138349
- Title: CodeChameleon: Personalized Encryption Framework for Jailbreaking Large
Language Models
- Title(参考訳): CodeChameleon: 大きな言語モデルをジェイルブレイクするためのパーソナライズされた暗号化フレームワーク
- Authors: Huijie Lv, Xiao Wang, Yuansen Zhang, Caishuang Huang, Shihan Dou,
Junjie Ye, Tao Gui, Qi Zhang, Xuanjing Huang
- Abstract要約: パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。
我々は、7つの大規模言語モデルに関する広範な実験を行い、最先端の平均アタック成功率(ASR)を達成する。
GPT-4-1106上で86.6%のASRを実現する。
- 参考スコア(独自算出の注目度): 49.60006012946767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial misuse, particularly through `jailbreaking' that circumvents a
model's safety and ethical protocols, poses a significant challenge for Large
Language Models (LLMs). This paper delves into the mechanisms behind such
successful attacks, introducing a hypothesis for the safety mechanism of
aligned LLMs: intent security recognition followed by response generation.
Grounded in this hypothesis, we propose CodeChameleon, a novel jailbreak
framework based on personalized encryption tactics. To elude the intent
security recognition phase, we reformulate tasks into a code completion format,
enabling users to encrypt queries using personalized encryption functions. To
guarantee response generation functionality, we embed a decryption function
within the instructions, which allows the LLM to decrypt and execute the
encrypted queries successfully. We conduct extensive experiments on 7 LLMs,
achieving state-of-the-art average Attack Success Rate (ASR). Remarkably, our
method achieves an 86.6\% ASR on GPT-4-1106.
- Abstract(参考訳): 特に、モデルの安全性と倫理的プロトコルを回避している 'jailbreaking' を通じて、敵対的な誤用は、Large Language Models (LLMs) にとって大きな課題となる。
本稿では,このような攻撃を成功させるメカニズムを考察し,協調型LLMの安全性機構の仮説,すなわち意図的セキュリティ認識と応答生成を導入する。
この仮説に基づいて,パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。
目的のセキュリティ認識フェーズを省略するため,タスクをコード補完形式に再構成し,パーソナライズされた暗号化機能を使用してクエリを暗号化する。
応答生成機能を保証するために、命令内に復号関数を埋め込み、llmが暗号化クエリの復号と実行を成功させる。
我々は7つのllmについて広範囲な実験を行い,最新の平均攻撃成功率(asr)を達成した。
ここでは, GPT-4-1106 上で86.6 % ASR を達成する。
関連論文リスト
- Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Neural Carrier Articles [10.109063166962079]
本稿では,言語モデルモデル(LLM)の注意を移す新しいタイプのジェイルブレイク攻撃を提案する。
提案攻撃では,知識グラフとLLMを利用して,禁止クエリのトピックに類似したキャリア記事を自動的に生成する。
実験の結果,提案手法はクロード3を除いて,高い成功率の目標LLMを投獄できることがわかった。
論文 参考訳(メタデータ) (2024-08-20T20:35:04Z) - The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models [8.423787598133972]
本稿では,大規模言語モデル(LLM)の関数呼び出しプロセスにおける重大な脆弱性を明らかにする。
本稿では,アライメントの相違,ユーザ強制,厳密な安全フィルタの欠如を生かした,新しい"jailbreak function"攻撃手法を提案する。
本研究は,LLMの機能呼び出し機能において,緊急のセキュリティ対策の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-07-25T10:09:21Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Can LLMs Deeply Detect Complex Malicious Queries? A Framework for Jailbreaking via Obfuscating Intent [3.380948804946178]
IntentObfuscatorという新しいブラックボックスジェイルブレイク攻撃手法を導入する。
本稿では,ChatGPT-3.5,ChatGPT-4,Qwen,Baichuanなど,複数のモデルを対象としたIntentObfuscator法の有効性を実証的に検証した。
私たちは、グラフィック暴力、人種差別、性差別、政治的敏感さ、サイバーセキュリティの脅威、犯罪スキルなど、さまざまな種類のセンシティブなコンテンツに検証を拡張します。
論文 参考訳(メタデータ) (2024-05-06T17:26:34Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - When "Competency" in Reasoning Opens the Door to Vulnerability: Jailbreaking LLMs via Novel Complex Ciphers [35.40596409566326]
我々は,大規模言語モデル (LLM) をジェイルブレイクするための新しい手法である Custom Encryptions (ACE) を用いた攻撃を提案する。
我々は、ACEが4つの最先端LCMに対して有効であることを評価し、オープンソースモデルでは最大66%、オープンソースモデルでは88%のアタック成功率(ASR)を達成した。
これに基づいて、カスタム暗号化(LACE)を用いたレイヤ攻撃(Layered Attacks)を導入し、ASRをさらに強化するために、カスタム暗号を通じて複数のレイヤの暗号化を利用する。
論文 参考訳(メタデータ) (2024-02-16T11:37:05Z) - SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding [35.750885132167504]
我々は,大規模言語モデル(LLM)の安全性を意識したデコーディング戦略であるSafeDecodingを導入し,ユーザクエリに対する有用かつ無害な応答を生成する。
この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2024-02-14T06:54:31Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher [85.18213923151717]
実験により、いくつかの安全領域において、GPT-4の安全性アライメントをバイパスするために、ある暗号がほぼ100%の時間で成功することが示された。
本稿では,ロールプレイのみを使用し,自然言語によるいくつかの実演を行い,これを誘発する新しいSelfCipherを提案する。
論文 参考訳(メタデータ) (2023-08-12T04:05:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。