論文の概要: MetaCipher: A General and Extensible Reinforcement Learning Framework for Obfuscation-Based Jailbreak Attacks on Black-Box LLMs
- arxiv url: http://arxiv.org/abs/2506.22557v1
- Date: Fri, 27 Jun 2025 18:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.465095
- Title: MetaCipher: A General and Extensible Reinforcement Learning Framework for Obfuscation-Based Jailbreak Attacks on Black-Box LLMs
- Title(参考訳): MetaCipher: Black-Box LLMに対する難読化ベースのジェイルブレイク攻撃のための汎用的で拡張可能な強化学習フレームワーク
- Authors: Boyuan Chen, Minghao Shao, Abdul Basit, Siddharth Garg, Muhammad Shafique,
- Abstract要約: 難読化による脱獄攻撃は依然として有効である。
我々は,新しい難読化ベースの脱獄フレームワークである textbfMetaCipher を提案する。
わずか10クエリで、MetaCipherは92%以上のアタック成功率を達成した。
- 参考スコア(独自算出の注目度): 14.530593083777502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing capabilities of large language models (LLMs) have exposed them to increasingly sophisticated jailbreak attacks. Among these, obfuscation-based attacks -- which encrypt malicious content to evade detection -- remain highly effective. By leveraging the reasoning ability of advanced LLMs to interpret encrypted prompts, such attacks circumvent conventional defenses that rely on keyword detection or context filtering. These methods are very difficult to defend against, as existing safety mechanisms are not designed to interpret or decode ciphered content. In this work, we propose \textbf{MetaCipher}, a novel obfuscation-based jailbreak framework, along with a reinforcement learning-based dynamic cipher selection mechanism that adaptively chooses optimal encryption strategies from a cipher pool. This approach enhances jailbreak effectiveness and generalizability across diverse task types, victim LLMs, and safety guardrails. Our framework is modular and extensible by design, supporting arbitrary cipher families and accommodating evolving adversarial strategies. We complement our method with a large-scale empirical analysis of cipher performance across multiple victim LLMs. Within as few as 10 queries, MetaCipher achieves over 92\% attack success rate (ASR) on most recent standard malicious prompt benchmarks against state-of-the-art non-reasoning LLMs, and over 74\% ASR against reasoning-capable LLMs, outperforming all existing obfuscation-based jailbreak methods. These results highlight the long-term robustness and adaptability of our approach, making it more resilient than prior methods in the face of advancing safety measures.
- Abstract(参考訳): 大きな言語モデル(LLM)の増大する能力は、ますます高度なジェイルブレイク攻撃にさらされている。
こうした中、悪意のあるコンテンツを暗号化して検出を回避している難読化ベースの攻撃は、依然として非常に効果的である。
高度なLSMの推論能力を利用して暗号化されたプロンプトを解釈することで、キーワード検出やコンテキストフィルタリングに依存する従来の防御を回避できる。
既存の安全性メカニズムは、暗号化されたコンテンツの解釈や復号化のために設計されていないため、これらの手法の防御は非常に困難である。
本研究では,新しい難読化ベースのjailbreakフレームワークであるtextbf{MetaCipher}と,暗号プールから最適な暗号化戦略を適応的に選択する強化学習ベースの動的暗号選択機構を提案する。
このアプローチは、さまざまなタスクタイプ、犠牲者のLLM、安全ガードレールにわたるジェイルブレイクの有効性と一般化性を向上する。
我々のフレームワークは、設計によってモジュール化され拡張可能であり、任意の暗号族をサポートし、進化する敵の戦略を調節する。
複数のLLMをまたいだ暗号性能の大規模実験解析により,本手法を補完する。
わずか10クエリ以内で、MetaCipherは最新の最先端の非理性 LLM に対する攻撃成功率 (ASR) を92 %以上達成し、推論可能な LLM に対する ASR を74 %以上達成し、既存の難読化ベースのjailbreak メソッドよりも優れています。
これらの結果は、我々のアプローチの長期的堅牢性と適応性を強調し、安全対策の進展に直面した従来の手法よりも弾力性を高めた。
関連論文リスト
- Benchmarking Large Language Models for Cryptanalysis and Mismatched-Generalization [4.020376901658977]
大規模言語モデル(LLM)は、自然言語の理解と生成を変革した。
データセキュリティと暗号化にとって重要な領域である暗号解析は、まだLLM評価において徹底的に研究されていない。
我々は,様々な暗号アルゴリズムを用いて生成した暗号化テキストに対して,美術用LLMの暗号解析可能性を評価する。
論文 参考訳(メタデータ) (2025-05-30T14:12:07Z) - Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。
一般的にジェイルブレイクと呼ばれる 敵の攻撃は 安全プロトコルをバイパスできる
LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - CodeChameleon: Personalized Encryption Framework for Jailbreaking Large
Language Models [49.60006012946767]
パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。
我々は、7つの大規模言語モデルに関する広範な実験を行い、最先端の平均アタック成功率(ASR)を達成する。
GPT-4-1106上で86.6%のASRを実現する。
論文 参考訳(メタデータ) (2024-02-26T16:35:59Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - When "Competency" in Reasoning Opens the Door to Vulnerability: Jailbreaking LLMs via Novel Complex Ciphers [33.41396323391102]
我々は、新しい暗号で悪意あるクエリをエンコードするジェイルブレイク技術である、カスタム暗号化(ACE)を用いたアタックを導入する。
また、攻撃の複雑さを増幅するために多層暗号を適用したLACE(Layered Attacks using Custom Encryptions)を導入する。
暗号を復号化できるLLMは、これらのジェイルブレイク攻撃に対してより脆弱である。
論文 参考訳(メタデータ) (2024-02-16T11:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。