Fugu-MT 論文翻訳(概要): CodeChameleon: Personalized Encryption Framework for Jailbreaking Large Language Models

論文の概要: CodeChameleon: Personalized Encryption Framework for Jailbreaking Large Language Models

arxiv url: http://arxiv.org/abs/2402.16717v1
Date: Mon, 26 Feb 2024 16:35:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 19:58:59.138349
Title: CodeChameleon: Personalized Encryption Framework for Jailbreaking Large Language Models
Title（参考訳）: CodeChameleon: 大きな言語モデルをジェイルブレイクするためのパーソナライズされた暗号化フレームワーク
Authors: Huijie Lv, Xiao Wang, Yuansen Zhang, Caishuang Huang, Shihan Dou, Junjie Ye, Tao Gui, Qi Zhang, Xuanjing Huang
Abstract要約: パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。我々は、7つの大規模言語モデルに関する広範な実験を行い、最先端の平均アタック成功率(ASR)を達成する。 GPT-4-1106上で86.6%のASRを実現する。
参考スコア（独自算出の注目度）: 49.60006012946767
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Adversarial misuse, particularly through `jailbreaking' that circumvents a model's safety and ethical protocols, poses a significant challenge for Large Language Models (LLMs). This paper delves into the mechanisms behind such successful attacks, introducing a hypothesis for the safety mechanism of aligned LLMs: intent security recognition followed by response generation. Grounded in this hypothesis, we propose CodeChameleon, a novel jailbreak framework based on personalized encryption tactics. To elude the intent security recognition phase, we reformulate tasks into a code completion format, enabling users to encrypt queries using personalized encryption functions. To guarantee response generation functionality, we embed a decryption function within the instructions, which allows the LLM to decrypt and execute the encrypted queries successfully. We conduct extensive experiments on 7 LLMs, achieving state-of-the-art average Attack Success Rate (ASR). Remarkably, our method achieves an 86.6\% ASR on GPT-4-1106.
Abstract（参考訳）: 特に、モデルの安全性と倫理的プロトコルを回避している 'jailbreaking' を通じて、敵対的な誤用は、Large Language Models (LLMs) にとって大きな課題となる。本稿では,このような攻撃を成功させるメカニズムを考察し,協調型LLMの安全性機構の仮説,すなわち意図的セキュリティ認識と応答生成を導入する。この仮説に基づいて,パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。目的のセキュリティ認識フェーズを省略するため,タスクをコード補完形式に再構成し,パーソナライズされた暗号化機能を使用してクエリを暗号化する。応答生成機能を保証するために、命令内に復号関数を埋め込み、llmが暗号化クエリの復号と実行を成功させる。我々は7つのllmについて広範囲な実験を行い,最新の平均攻撃成功率(asr)を達成した。ここでは, GPT-4-1106 上で86.6 % ASR を達成する。

関連論文リスト

Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。一般的にジェイルブレイクと呼ばれる敵の攻撃は安全プロトコルをバイパスできる LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文参考訳（メタデータ） (2025-04-28T07:38:43Z)
Smoke and Mirrors: Jailbreaking LLM-based Code Generation via Implicit Malicious Prompts [5.718926328180089]
本稿では,コード生成における安全性の懸念を明らかにするために,JailbreakingアプローチであるCodeJailbreakerを紹介する。最近リリースされたRCCBenchベンチマークの実験では、CodeJailbreakerが従来のジェイルブレイク戦略を大きく上回っていることが示されている。
論文参考訳（メタデータ） (2025-03-23T06:06:12Z)
xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文参考訳（メタデータ） (2025-01-28T06:07:58Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
Hide Your Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Neural Carrier Articles [10.109063166962079]
本稿では,言語モデルモデル(LLM)の注意を移す新しいタイプのジェイルブレイク攻撃を提案する。提案攻撃では,知識グラフとLLMを利用して,禁止クエリのトピックに類似したキャリア記事を自動的に生成する。実験の結果,提案手法はクロード3を除いて,高い成功率の目標LLMを投獄できることがわかった。
論文参考訳（メタデータ） (2024-08-20T20:35:04Z)
h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文参考訳（メタデータ） (2024-08-09T01:45:39Z)
The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models [8.423787598133972]
本稿では,大規模言語モデル(LLM)の関数呼び出しプロセスにおける重大な脆弱性を明らかにする。本稿では,アライメントの相違,ユーザ強制,厳密な安全フィルタの欠如を生かした,新しい"jailbreak function"攻撃手法を提案する。本研究は,LLMの機能呼び出し機能において,緊急のセキュリティ対策の必要性を浮き彫りにした。
論文参考訳（メタデータ） (2024-07-25T10:09:21Z)
Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。 LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文参考訳（メタデータ） (2024-05-30T14:40:35Z)
Can LLMs Deeply Detect Complex Malicious Queries? A Framework for Jailbreaking via Obfuscating Intent [3.380948804946178]
IntentObfuscatorという新しいブラックボックスジェイルブレイク攻撃手法を導入する。本稿では,ChatGPT-3.5,ChatGPT-4,Qwen,Baichuanなど,複数のモデルを対象としたIntentObfuscator法の有効性を実証的に検証した。私たちは、グラフィック暴力、人種差別、性差別、政治的敏感さ、サイバーセキュリティの脅威、犯罪スキルなど、さまざまな種類のセンシティブなコンテンツに検証を拡張します。
論文参考訳（メタデータ） (2024-05-06T17:26:34Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
When "Competency" in Reasoning Opens the Door to Vulnerability: Jailbreaking LLMs via Novel Complex Ciphers [35.40596409566326]
我々は,大規模言語モデル (LLM) をジェイルブレイクするための新しい手法である Custom Encryptions (ACE) を用いた攻撃を提案する。我々は、ACEが4つの最先端LCMに対して有効であることを評価し、オープンソースモデルでは最大66%、オープンソースモデルでは88%のアタック成功率(ASR)を達成した。これに基づいて、カスタム暗号化(LACE)を用いたレイヤ攻撃(Layered Attacks)を導入し、ASRをさらに強化するために、カスタム暗号を通じて複数のレイヤの暗号化を利用する。
論文参考訳（メタデータ） (2024-02-16T11:37:05Z)
SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding [35.750885132167504]
我々は,大規模言語モデル(LLM)の安全性を意識したデコーディング戦略であるSafeDecodingを導入し,ユーザクエリに対する有用かつ無害な応答を生成する。この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。
論文参考訳（メタデータ） (2024-02-14T06:54:31Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher [85.18213923151717]
実験により、いくつかの安全領域において、GPT-4の安全性アライメントをバイパスするために、ある暗号がほぼ100%の時間で成功することが示された。本稿では,ロールプレイのみを使用し,自然言語によるいくつかの実演を行い,これを誘発する新しいSelfCipherを提案する。
論文参考訳（メタデータ） (2023-08-12T04:05:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。