論文の概要: Evolving Skill-Structured Attack Memory Enhances LLM Jailbreaking
- arxiv url: http://arxiv.org/abs/2605.29237v1
- Date: Thu, 28 May 2026 01:53:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.585581
- Title: Evolving Skill-Structured Attack Memory Enhances LLM Jailbreaking
- Title(参考訳): スキル構造化攻撃記憶の進化はLLMの脱獄を促進する
- Authors: Junke Zhang, Jianwei Wang, Sishuo Chen, Yizhang He, Qingshuai Feng, Zhengyi Yang,
- Abstract要約: MemoAttackは、包括的な攻撃メモリモデリング、進化、選択を備えた、メモリ駆動のブラックボックスジェイルブレイクフレームワークである。
AdvBenchの実験では、MemoAttackは平均攻撃成功率980%を達成し、最強のベースラインを16.67ポイント上回り、リクエスト数を45.9%削減した。
- 参考スコア(独自算出の注目度): 7.104605761459844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jailbreak attacks on large language models (LLMs) aim to induce LLMs to produce content that they are expected to refuse. Automated black-box jailbreak generation is especially important for safety evaluation, where the attacker observes only model outputs and needs to automatically search for effective adversarial prompts. Existing black-box jailbreak methods either depend on sample-wise heuristic search or leverage attack experience through accumulating strategy pools or method libraries, lacking a systematic organization and management of attack experience. To mitigate these drawbacks, we propose MemoAttack, a memory-driven black-box jailbreak framework with comprehensive attack memory modeling, evolution, and selection. Specifically, MemoAttack comprises three key designs: (1) Skill-Structured Memory Modeling, which abstracts accumulated attack experience into reusable skill-structured attack memory whose units pair attack skills with templates, evidence, and lifecycle state; (2) Lifecycle-Driven Memory Evolution, which evolves the memory through evidence-based probation, promotion, retirement, reactivation, elimination, and storage cleanup; and (3) Explore-Exploit Balanced Memory Selection, which balances reliable memory reuse with uncertainty-driven exploration via contextual Thompson Sampling. Experiments on AdvBench demonstrate that MemoAttack achieves an average attack success rate of 98.00%, outperforming the strongest baseline by 16.67 percentage points, while reducing request count by 45.9%. Moreover, MemoAttack continuously improves as memory accumulates over more samples.
- Abstract(参考訳): 大規模言語モデル(LLM)に対するジェイルブレイク攻撃は、LLMに拒否されるであろうコンテンツを生成するよう誘導することを目的としている。
自動ブラックボックスジェイルブレイク生成は、特に安全性評価において重要であり、攻撃者はモデル出力のみを観察し、効果的な敵のプロンプトを自動的に検索する必要がある。
既存のブラックボックスジェイルブレイク手法は、サンプルワイドヒューリスティック検索に依存するか、戦略プールやメソッドライブラリを蓄積して攻撃経験を活用するか、体系的な組織や攻撃経験の管理を欠いている。
これらの欠点を軽減するため,メモリ駆動型ブラックボックスジェイルブレイクフレームワークであるMemoAttackを提案する。
具体的には,(1)蓄積した攻撃経験をテンプレート,エビデンス,ライフサイクル状態と組み合わせた再利用可能なスキル構造化攻撃メモリに抽象化するスキル構造化メモリモデリング,(2)エビデンスベースのプロビベーション,昇格,引退,再活性化,消去,ストレージクリーンアップを通じてメモリを進化させるライフサイクル駆動メモリ進化,(3)コンテクスト的なトンプソンサンプリングによる信頼性の高いメモリ再利用と不確実性による探索とを両立する探索型メモリ選択,の3つの主要な設計を含む。
AdvBenchの実験では、MemoAttackが平均攻撃成功率98.00%を達成し、16.67ポイントを上回り、リクエスト数を45.9%削減した。
さらに、メモリがより多くのサンプルを蓄積するにつれて、MemoAttackは継続的に改善される。
関連論文リスト
- MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents [78.95081012334116]
永続メモリを持つ大規模言語モデル(LLM)は、相互作用の継続性とパーソナライゼーションを高めるが、新たな安全性リスクをもたらす。
汚染または偏りのある記憶蓄積は、異常な作用を引き起こす可能性がある。
MemeEvoBenchは、LLMエージェントのメモリ安全性を評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-17T07:29:52Z) - Memory Poisoning Attack and Defense on Memory Based LLM-Agents [3.7127635602605014]
永続メモリを備えた大規模言語モデルエージェントは、メモリ中毒攻撃に対して脆弱である。
近年の研究では、MINJA (Memory Injection Attack) が95%以上のインジェクション成功率を達成した。
本研究は,記憶障害攻撃と防御の系統的評価を通じてギャップに対処する。
論文 参考訳(メタデータ) (2026-01-09T03:26:10Z) - RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models [60.201244463046784]
大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
論文 参考訳(メタデータ) (2025-12-08T17:42:59Z) - OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation [94.61617176929384]
OmniSafeBench-MMはマルチモーダル・ジェイルブレイク攻撃防御評価のための総合ツールボックスである。
13の代表的な攻撃方法と15の防衛戦略、9つの主要なリスクドメインと50のきめ細かいカテゴリにまたがる多様なデータセットを統合している。
データ、方法論、評価をオープンソースで再現可能なプラットフォームに統合することで、OmniSafeBench-MMは将来の研究のための標準化された基盤を提供する。
論文 参考訳(メタデータ) (2025-12-06T22:56:29Z) - Immunity memory-based jailbreak detection: multi-agent adaptive guard for large language models [12.772312329709868]
大規模言語モデル(LLM)はAIシステムの基盤となっているが、敵のジェイルブレイク攻撃に弱いままである。
ジェイルブレイク検出のためのマルチエージェント適応ガード(MAAG)フレームワークを提案する。
MAAGはまず、入力プロンプトからアクティベーション値を抽出し、メモリバンクに格納された履歴アクティベーションと比較して、迅速な予備検出を行う。
論文 参考訳(メタデータ) (2025-12-03T01:40:40Z) - JailDAM: Jailbreak Detection with Adaptive Memory for Vision-Language Model [25.204224437843365]
マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクに優れるが、有害なコンテンツを生成する大きなリスクを生じさせる。
ジェイルブレイク攻撃は、モデル内の安全メカニズムを回避し、不適切なコンテンツや安全でないコンテンツを生成する意図的な操作を指す。
JAILDAMと呼ばれるテスト時間適応フレームワークを導入し、これらの問題に対処する。
論文 参考訳(メタデータ) (2025-04-03T05:00:28Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in CLIP [51.04452017089568]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトでCLIPを間接的に浄化する効率的な防御機構である。
CBPTは、モデルユーティリティを保持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。