論文の概要: Compositional Jailbreaking: An Empirical Analysis of Mutator Chain Interactions in Aligned LLMs
- arxiv url: http://arxiv.org/abs/2605.15598v1
- Date: Fri, 15 May 2026 04:14:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 17:44:16.300943
- Title: Compositional Jailbreaking: An Empirical Analysis of Mutator Chain Interactions in Aligned LLMs
- Title(参考訳): 組成ジェイルブレーキング : 配向LDMにおけるミューテーター鎖相互作用の実証解析
- Authors: Reinelle Jan Bugnot, Soohyeon Choi, Hoon Wei Lim, Yue Duan,
- Abstract要約: 大規模言語モデルに対するジェイルブレイク攻撃は、有害または制限されたコンテンツの生成を可能にすることによって、AIの安全性に重大な脅威をもたらす。
本稿では,弱いジェイルブレイク変換を逐次適用し,それらがどのように相互作用するかを特徴付けるミューテータ連鎖の系統的研究について述べる。
その結果、相互作用のランドスケープは非一様であり、ほとんどの組み合わせは個々のミュータを上回りません。
- 参考スコア(独自算出の注目度): 7.131819229115288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jailbreaking attacks on large language models pose a significant threat to AI safety by enabling the generation of harmful or restricted content. While prior work has explored both handcrafted and automated jailbreak strategies, the potential for compositional interaction between simple attacks remains underexplored. This paper presents a systematic study of mutator chaining, in which weak jailbreak transformations are applied sequentially to characterize how they interact: whether they reinforce one another, interfere destructively, or produce no meaningful change. We implement twelve baseline mutators and evaluate all ordered pairs on a benchmark of harmful prompts against three popular LLM models. Our framework introduces metrics for completeness and validity that capture both transformation persistence and attack effectiveness. Results reveal that the interaction landscape is highly non-uniform, while most combinations fail to outperform individual mutators, exhibiting destructive interference or structural incompatibility, a small fraction produce synergistic effects that improve attack success rates. Equally important, the prevalent failure modes reveal structural properties of safety alignment that are not apparent from single-strategy evaluations. These findings highlight the nuanced dynamics of adversarial prompt composition and offer new insights for building more robust safety defenses.
- Abstract(参考訳): 大規模言語モデルに対する脱獄攻撃は、有害または制限されたコンテンツの生成を可能にすることによって、AIの安全性に重大な脅威をもたらす。
以前の研究では、手工芸と自動ジェイルブレイク戦略の両方を探求してきたが、単純な攻撃間の構成的相互作用の可能性はまだ検討されていない。
本稿では,弱いジェイルブレイク変換を逐次適用して相互に強化したり,破壊的に干渉したり,意味のある変化を生じさせないような,ミューテーター連鎖の系統的研究について述べる。
我々は12のベースラインミュータを実装し、3つのLLMモデルに対して有害なプロンプトのベンチマークで全ての順序対を評価する。
当社のフレームワークでは,トランスフォーメーションの持続性とアタックの有効性の両方をキャプチャする,完全性と妥当性の指標を導入しています。
その結果、相互作用の状況は極めて一様ではなく、ほとんどの組み合わせは個々のミュータよりも優れておらず、破壊的な干渉や構造的不整合性が示され、小さな部分では攻撃の成功率を向上させる相乗効果が生じることが明らかとなった。
同様に、一般的な障害モードは、単一ストラテジー評価から明らかでない安全アライメントの構造的特性を示す。
これらの知見は、敵の迅速な構成の微妙なダイナミクスを強調し、より堅牢な安全防衛を構築するための新たな洞察を提供する。
関連論文リスト
- Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models [50.91504059485288]
本報告では,全頭部のグローバルな最適化により,安全クリティカルな注意点を同時に識別するフレームワークを提案する。
我々は,アクティベーション・リマッチによって同定された安全ベクトルを利用する,新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
論文 参考訳(メタデータ) (2026-01-22T09:32:43Z) - Knowledge-Driven Multi-Turn Jailbreaking on Large Language Models [33.30628603365359]
大規模言語モデル(LLM)は、マルチターンジェイルブレイク攻撃による重大な脅威に直面している。
動的で自己改善的なアプローチを採用したマルチターンジェイルブレイクフレームワークであるMastermindを紹介します。
我々は, GPT-5 や Claude 3.7 Sonnet を含む最先端モデルに対する総合的な実験を行った。
論文 参考訳(メタデータ) (2026-01-09T00:27:08Z) - Cracking IoT Security: Can LLMs Outsmart Static Analysis Tools? [1.8549313085249322]
本研究は,多カテゴリー間相互作用脅威分類におけるLarge Language Models (LLMs) の総合評価を初めて行った。
Llama 3.1 8B, Llama 70B, GPT-4o, Gemini-2.5-Pro, DeepSeek-R1を0, 1, 2ショット設定でベンチマークする。
以上の結果から, LLMは有望な意味理解を示すが, 相互構造的推論を必要とする脅威に対して, 精度は著しく低下することがわかった。
論文 参考訳(メタデータ) (2026-01-02T04:17:36Z) - MEEA: Mere Exposure Effect-Driven Confrontational Optimization for LLM Jailbreaking [10.331506725187038]
マルチターン安全性の信頼性を評価するための完全に自動化されたフレームワークであるMEEAを提案する。
MEEAはセマンティックプログレッシブなプロンプトチェーンを構築し、シミュレートされたアニール戦略を使ってそれらを最適化する。
その結果,MEEAは7つのベースラインよりも攻撃成功率が高いことがわかった。
論文 参考訳(メタデータ) (2025-12-21T14:43:26Z) - ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models [8.765213350762748]
ジェイルブレイク攻撃は 有害な出力を 引き出すためにアライメント・ガードをバイパスする
セマンティック・コヒーレントで高能率な対人プロンプトを生成するための新しいフレームワークであるForgeDANを提案する。
本評価は,従来のSOTAソリューションよりも優れた自然さとステルスを維持しつつ,高い脱獄率を達成することを示す。
論文 参考訳(メタデータ) (2025-11-17T16:19:21Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Interpretability is a Kind of Safety: An Interpreter-based Ensemble for
Adversary Defense [28.398901783858005]
我々は,強固な防御敵に対するX-Ensembleと呼ばれるインタプリタベースのアンサンブルフレームワークを提案する。
X-エンサンブルはランダムフォレスト(RF)モデルを用いて、準検出器をアンサンブル検出器に結合し、敵のハイブリッド攻撃防御を行う。
論文 参考訳(メタデータ) (2023-04-14T04:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。