論文の概要: MetaCipher: A Time-Persistent and Universal Multi-Agent Framework for Cipher-Based Jailbreak Attacks for LLMs
- arxiv url: http://arxiv.org/abs/2506.22557v2
- Date: Wed, 13 Aug 2025 10:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 16:17:42.661884
- Title: MetaCipher: A Time-Persistent and Universal Multi-Agent Framework for Cipher-Based Jailbreak Attacks for LLMs
- Title(参考訳): MetaCipher: LLMのための暗号ベースのジェイルブレイク攻撃のための時間的・普遍的マルチエージェントフレームワーク
- Authors: Boyuan Chen, Minghao Shao, Abdul Basit, Siddharth Garg, Muhammad Shafique,
- Abstract要約: 低コストでマルチエージェントのジェイルブレイクフレームワークであるMetaCipherを提案する。
わずか10クエリで、MetaCipherは最近の悪意のあるプロンプトベンチマークで最先端の攻撃成功率を達成する。
- 参考スコア(独自算出の注目度): 14.530593083777502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) grow more capable, they face growing vulnerability to sophisticated jailbreak attacks. While developers invest heavily in alignment finetuning and safety guardrails, researchers continue publishing novel attacks, driving progress through adversarial iteration. This dynamic mirrors a strategic game of continual evolution. However, two major challenges hinder jailbreak development: the high cost of querying top-tier LLMs and the short lifespan of effective attacks due to frequent safety updates. These factors limit cost-efficiency and practical impact of research in jailbreak attacks. To address this, we propose MetaCipher, a low-cost, multi-agent jailbreak framework that generalizes across LLMs with varying safety measures. Using reinforcement learning, MetaCipher is modular and adaptive, supporting extensibility to future strategies. Within as few as 10 queries, MetaCipher achieves state-of-the-art attack success rates on recent malicious prompt benchmarks, outperforming prior jailbreak methods. We conduct a large-scale empirical evaluation across diverse victim models and benchmarks, demonstrating its robustness and adaptability. Warning: This paper contains model outputs that may be offensive or harmful, shown solely to demonstrate jailbreak efficacy.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力が向上するにつれ、高度なjailbreak攻撃に対する脆弱性の増大に直面している。
開発者は微調整と安全ガードレールに多大な投資をしているが、研究者は新たな攻撃を公表し続け、敵の反復を通じて前進を続けている。
このダイナミクスは、継続的な進化という戦略的なゲームを反映している。
しかし、Jailbreak開発を妨げる2つの大きな課題は、最上位のLCMをクエリするコストの高いことと、頻繁な安全性更新による効果的な攻撃の寿命の短さである。
これらの要因は、ジェイルブレイク攻撃における費用対効果と研究の実践的影響を制限する。
そこで我々は,低費用でマルチエージェント・ジェイルブレイク・フレームワークであるMetaCipherを提案する。
強化学習を使用することで、MetaCipherはモジュール化され、将来の戦略の拡張性をサポートする。
わずか10クエリでMetaCipherは、最近の悪意のあるプロンプトベンチマークにおける最先端の攻撃成功率を達成し、以前のjailbreakメソッドよりも優れています。
我々は、様々な犠牲者モデルやベンチマークに対して大規模な経験的評価を行い、その堅牢性と適応性を示す。
警告: 本論文は、ジェイルブレイクの有効性を示すためにのみ示される、攻撃的または有害なモデルアウトプットを含む。
関連論文リスト
- Benchmarking Large Language Models for Cryptanalysis and Mismatched-Generalization [4.020376901658977]
大規模言語モデル(LLM)は、自然言語の理解と生成を変革した。
データセキュリティと暗号化にとって重要な領域である暗号解析は、まだLLM評価において徹底的に研究されていない。
我々は,様々な暗号アルゴリズムを用いて生成した暗号化テキストに対して,美術用LLMの暗号解析可能性を評価する。
論文 参考訳(メタデータ) (2025-05-30T14:12:07Z) - Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。
一般的にジェイルブレイクと呼ばれる 敵の攻撃は 安全プロトコルをバイパスできる
LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - CodeChameleon: Personalized Encryption Framework for Jailbreaking Large
Language Models [49.60006012946767]
パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。
我々は、7つの大規模言語モデルに関する広範な実験を行い、最先端の平均アタック成功率(ASR)を達成する。
GPT-4-1106上で86.6%のASRを実現する。
論文 参考訳(メタデータ) (2024-02-26T16:35:59Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - When "Competency" in Reasoning Opens the Door to Vulnerability: Jailbreaking LLMs via Novel Complex Ciphers [33.41396323391102]
我々は、新しい暗号で悪意あるクエリをエンコードするジェイルブレイク技術である、カスタム暗号化(ACE)を用いたアタックを導入する。
また、攻撃の複雑さを増幅するために多層暗号を適用したLACE(Layered Attacks using Custom Encryptions)を導入する。
暗号を復号化できるLLMは、これらのジェイルブレイク攻撃に対してより脆弱である。
論文 参考訳(メタデータ) (2024-02-16T11:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。