論文の概要: MAJIC: Markovian Adaptive Jailbreaking via Iterative Composition of Diverse Innovative Strategies
- arxiv url: http://arxiv.org/abs/2508.13048v1
- Date: Mon, 18 Aug 2025 16:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.475203
- Title: MAJIC: Markovian Adaptive Jailbreaking via Iterative Composition of Diverse Innovative Strategies
- Title(参考訳): MAJIC: Markovian Adaptive Jailbreaking by Iterative composition of Diverse Innovative Strategies
- Authors: Weiwei Qi, Shuo Shao, Wei Gu, Tianhang Zheng, Puning Zhao, Zhan Qin, Kui Ren,
- Abstract要約: 大きな言語モデル(LLM)は目覚ましい能力を示したが、ジェイルブレイク攻撃には弱いままである。
我々は,多様な革新的な変装戦略を反復的に組み合わせてブラックボックスLLMを攻撃するマルコフ適応型ジェイルブレイクフレームワークMAJICを提案する。
GPT-4o や Gemini-2.0-flash などの著名なモデルでは,MAJIC が既存のjailbreak 手法を著しく上回っていることが実証された。
- 参考スコア(独自算出の注目度): 27.162196792311263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have exhibited remarkable capabilities but remain vulnerable to jailbreaking attacks, which can elicit harmful content from the models by manipulating the input prompts. Existing black-box jailbreaking techniques primarily rely on static prompts crafted with a single, non-adaptive strategy, or employ rigid combinations of several underperforming attack methods, which limits their adaptability and generalization. To address these limitations, we propose MAJIC, a Markovian adaptive jailbreaking framework that attacks black-box LLMs by iteratively combining diverse innovative disguise strategies. MAJIC first establishes a ``Disguise Strategy Pool'' by refining existing strategies and introducing several innovative approaches. To further improve the attack performance and efficiency, MAJIC formulate the sequential selection and fusion of strategies in the pool as a Markov chain. Under this formulation, MAJIC initializes and employs a Markov matrix to guide the strategy composition, where transition probabilities between strategies are dynamically adapted based on attack outcomes, thereby enabling MAJIC to learn and discover effective attack pathways tailored to the target model. Our empirical results demonstrate that MAJIC significantly outperforms existing jailbreak methods on prominent models such as GPT-4o and Gemini-2.0-flash, achieving over 90\% attack success rate with fewer than 15 queries per attempt on average.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい能力を示したが、Jailbreak攻撃に弱いままであり、入力プロンプトを操作することで、モデルから有害なコンテンツを引き出すことができる。
既存のブラックボックスのジェイルブレイク技術は、主に単一の非適応戦略で作られた静的なプロンプトに頼っている。
これらの制約に対処するため,マルコフ適応型脱獄フレームワークであるMAJICを提案する。
MAJICは、既存の戦略を精錬し、いくつかの革新的なアプローチを導入することで、最初に 'Disguise Strategy Pool' を確立する。
攻撃性能と効率をさらに向上するため、MAJICは、プール内の戦略の逐次選択と融合をマルコフ連鎖として定式化する。
この定式化の下で、MAJICはマルコフ行列を用いて戦略構成を導出し、攻撃結果に基づいて戦略間の遷移確率を動的に適応させることにより、MAJICはターゲットモデルに適した効果的な攻撃経路を学習し発見することができる。
GPT-4o や Gemini-2.0-flash などの著名なモデルでは,MAJIC が既存のjailbreak 手法よりも優れており,攻撃成功率は90%以上であり,平均15クエリ未満である。
関連論文リスト
- MEF: A Capability-Aware Multi-Encryption Framework for Evaluating Vulnerabilities in Black-Box Large Language Models [5.645247459469767]
ブラックボックスLLMの脆弱性を評価するための機能対応マルチ暗号化フレームワーク(MEF)を提案する。
限定的な理解能力を持つモデルに対して、MEFは、階層化された意味突然変異と暗号化技術を統合するFu+En1戦略を採用している。
強力な理解能力を持つモデルでは、MEFはより複雑なFu+En1+En2戦略を使用し、LLMの応答に追加のデュアルエンド暗号化技術を適用する。
論文 参考訳(メタデータ) (2025-05-29T12:50:57Z) - Adversarial Training for Multimodal Large Language Models against Jailbreak Attacks [17.75247947379804]
MLLM訓練期間中のジェイルブレイク攻撃に対する防御を目的とした,最初の対人訓練パラダイムを提示する。
エンド・ツー・エンドのATフレームワークであるProEAT(Projection Layer Against Adversarial Training)を紹介する。
ProEATは最先端の防御性能を達成し、テキストと画像のモダリティの平均マージン+34%で既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-03-05T14:13:35Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z) - Projective Ranking-based GNN Evasion Attacks [52.85890533994233]
グラフニューラルネットワーク(GNN)は、グラフ関連のタスクに対して、有望な学習方法を提供する。
GNNは敵の攻撃の危険にさらされている。
論文 参考訳(メタデータ) (2022-02-25T21:52:09Z) - Boosting Transferability of Targeted Adversarial Examples via
Hierarchical Generative Networks [56.96241557830253]
転送ベースの敵攻撃はブラックボックス設定におけるモデルロバスト性を効果的に評価することができる。
本稿では,異なるクラスを対象にした対角的例を生成する条件生成攻撃モデルを提案する。
提案手法は,既存の手法と比較して,標的となるブラックボックス攻撃の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-05T06:17:47Z) - Effective Unsupervised Domain Adaptation with Adversarially Trained
Language Models [54.569004548170824]
注意的なマスキング戦略は、マスキングされた言語モデルの知識ギャップを橋渡しできることを示す。
本稿では,これらのトークンを逆さまにマスキングすることで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-05T01:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。