論文の概要: SRTJ: Self-Evolving Rule-Driven Training-Free LLM Jailbreaking
- arxiv url: http://arxiv.org/abs/2605.00974v1
- Date: Fri, 01 May 2026 17:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.526552
- Title: SRTJ: Self-Evolving Rule-Driven Training-Free LLM Jailbreaking
- Title(参考訳): SRTJ: 自己進化型ルール駆動トレーニングフリーLLM脱獄
- Authors: Jindong Li, Ying Liu, Yali Fu, Jinjing Zhu, Leyao Wang, Menglin Yang, Rex Ying,
- Abstract要約: 我々は、攻撃戦略を体系的に発見、構成、洗練する自己進化型ルール駆動型トレーニングフリージェイルブレイク(SRTJ)フレームワークを提案する。
結果として生じるルールメモリは階層的なマルチレベルな方法で進化し、蒸留された攻撃知識を長期的、中期的、短期的なルールに明示的に整理する。
SRTJは、既存のjailbreak法と比較して、一般化と堅牢性を向上しつつ、異なる目標LLMに対して、強力で安定した攻撃性能を実現する。
- 参考スコア(独自算出の注目度): 24.752522468137443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs are increasingly equipped with safety alignment mechanisms, yet recent studies demonstrate that they remain vulnerable to jailbreaking attacks that elicit harmful behaviors without explicit policy violations. While a growing body of work has explored automated jailbreak strategies, existing methods face several fundamental challenges, including the lack of systematic utilization of both successful and failed attack experiences, as well as the absence of principled mechanisms for composing and selecting reusable attack rules under diverse constraints. As a result, existing methods struggle to accumulate transferable knowledge over time and to reliably adapt attack strategies across different targets and evolving safety mechanisms. To address these issues, we propose a Self-Evolving Rule-Driven Training-Free Jailbreak (SRTJ) framework that systematically discovers, composes, and refines attack strategies through interaction and feedback, without updating model parameters. Specifically, SRTJ couples experience-driven attack generation with answer set programming (ASP)-based rule selection and constraint-aware composition, where iterative verifier feedback is leveraged to jointly refine successful strategies and analyze failure patterns. The resulting rule memory evolves in a hierarchical multi-level manner, explicitly organizing distilled attack knowledge into long-term, middle-term, and short-term rules, thereby capturing both stable transferable strategies and transient adaptive behaviors to effectively balance exploration and exploitation across attack attempts. Extensive experiments on mainstream jailbreak benchmark (HarmBench) demonstrate that SRTJ achieves strong and stable attack performance across different target LLMs, while exhibiting improved robustness and generalization compared to existing jailbreak methods. The code is available at https://github.com/TheSolkatt/SRTJ.
- Abstract(参考訳): LLMには安全アライメント機構がますます備わっているが、最近の研究では、明示的なポリシー違反なしに有害な行動を引き起こすジェイルブレイク攻撃に対して脆弱であることが証明されている。
自動化されたジェイルブレイク戦略を探求する一方で、既存の手法では、成功と失敗の両方の攻撃経験の体系的利用の欠如や、さまざまな制約の下で再利用可能な攻撃ルールの作成と選択のための原則的なメカニズムの欠如など、いくつかの根本的な課題に直面している。
その結果、既存の手法では、時間とともに移動可能な知識を蓄積し、異なる目標をまたいだ攻撃戦略を確実に適応し、安全メカニズムの進化に苦慮している。
これらの問題に対処するために、モデルパラメータを更新することなく、相互作用やフィードバックを通じて攻撃戦略を体系的に発見、構成、洗練する自己進化型ルール駆動型トレーニングフリー・ジェイルブレイク(SRTJ)フレームワークを提案する。
具体的には、SRTJは、経験駆動アタック生成と、応答セットプログラミング(ASP)ベースのルール選択と制約認識コンポジションを結合し、反復検証フィードバックを利用して、成功戦略を共同で洗練し、失敗パターンを分析する。
得られたルールメモリは階層的な多段階的に進化し、蒸留された攻撃知識を長期的、中期的、短期的なルールに明示的に整理し、安定した移動可能な戦略と過渡的な適応的行動の両方を捕捉し、攻撃の試み間の探索と搾取を効果的にバランスさせる。
主流のjailbreakベンチマーク(HarmBench)での大規模な実験により、SRTJは、既存のjailbreak手法と比較して堅牢性や一般化が向上しつつ、異なるターゲットLLMに対して、強力で安定した攻撃性能を達成することが示された。
コードはhttps://github.com/TheSolkatt/SRTJ.comで公開されている。
関連論文リスト
- An Automated Framework for Strategy Discovery, Retrieval, and Evolution in LLM Jailbreak Attacks [9.715575204912167]
攻撃戦略を自律的に発見し,回収し,進化させる脱獄フレームワークを提案する。
ASTRAは平均アタック成功率(ASR)が82.7%に達し、ベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2025-11-04T08:24:22Z) - MEF: A Capability-Aware Multi-Encryption Framework for Evaluating Vulnerabilities in Black-Box Large Language Models [5.645247459469767]
ブラックボックスLLMの脆弱性を評価するための機能対応マルチ暗号化フレームワーク(MEF)を提案する。
限定的な理解能力を持つモデルに対して、MEFは、階層化された意味突然変異と暗号化技術を統合するFu+En1戦略を採用している。
強力な理解能力を持つモデルでは、MEFはより複雑なFu+En1+En2戦略を使用し、LLMの応答に追加のデュアルエンド暗号化技術を適用する。
論文 参考訳(メタデータ) (2025-05-29T12:50:57Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。
進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。
この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-28T07:48:57Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。