論文の概要: An Automated Framework for Strategy Discovery, Retrieval, and Evolution in LLM Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2511.02356v1
- Date: Tue, 04 Nov 2025 08:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.851508
- Title: An Automated Framework for Strategy Discovery, Retrieval, and Evolution in LLM Jailbreak Attacks
- Title(参考訳): LLMジェイルブレイク攻撃における戦略発見・検索・進化のための自動フレームワーク
- Authors: Xu Liu, Yan Chen, Kan Ling, Yichi Zhu, Hengrun Zhang, Guisheng Fan, Huiqun Yu,
- Abstract要約: 攻撃戦略を自律的に発見し,回収し,進化させる脱獄フレームワークを提案する。
ASTRAは平均アタック成功率(ASR)が82.7%に達し、ベースラインをはるかに上回っている。
- 参考スコア(独自算出の注目度): 9.715575204912167
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread deployment of Large Language Models (LLMs) as public-facing web services and APIs has made their security a core concern for the web ecosystem. Jailbreak attacks, as one of the significant threats to LLMs, have recently attracted extensive research. In this paper, we reveal a jailbreak strategy which can effectively evade current defense strategies. It can extract valuable information from failed or partially successful attack attempts and contains self-evolution from attack interactions, resulting in sufficient strategy diversity and adaptability. Inspired by continuous learning and modular design principles, we propose ASTRA, a jailbreak framework that autonomously discovers, retrieves, and evolves attack strategies to achieve more efficient and adaptive attacks. To enable this autonomous evolution, we design a closed-loop "attack-evaluate-distill-reuse" core mechanism that not only generates attack prompts but also automatically distills and generalizes reusable attack strategies from every interaction. To systematically accumulate and apply this attack knowledge, we introduce a three-tier strategy library that categorizes strategies into Effective, Promising, and Ineffective based on their performance scores. The strategy library not only provides precise guidance for attack generation but also possesses exceptional extensibility and transferability. We conduct extensive experiments under a black-box setting, and the results show that ASTRA achieves an average Attack Success Rate (ASR) of 82.7%, significantly outperforming baselines.
- Abstract(参考訳): 大きな言語モデル(LLM)をパブリックなWebサービスやAPIとして広くデプロイすることで、セキュリティがWebエコシステムの中核的な関心事になっている。
LLMに対する重要な脅威の1つとして、ジェイルブレイク攻撃は近年、広範な研究を惹きつけている。
本稿では,現在の防衛戦略を効果的に回避できる脱獄戦略を明らかにする。
失敗または部分的に成功した攻撃の試みから貴重な情報を抽出し、攻撃相互作用からの自己進化を含ませ、十分な戦略の多様性と適応性をもたらす。
継続的学習とモジュール設計の原則にインスパイアされた私たちは、より効率的で適応的な攻撃を実現するために、自律的に攻撃戦略を発見し、回収し、進化させるjailbreakフレームワークであるASTRAを提案する。
この自律的な進化を可能にするため、我々は攻撃プロンプトを生成するだけでなく、あらゆる相互作用から再利用可能な攻撃戦略を自動蒸留・一般化するクローズドループ「アタック・エバレート・ディスティル・リユース」コア機構を設計した。
この攻撃知識を体系的に蓄積し,適用するために,我々は,その性能スコアに基づいて,戦略を有効・有効・有効に分類する3層戦略ライブラリを導入する。
戦略ライブラリは、攻撃発生の正確なガイダンスを提供するだけでなく、例外的な拡張性と転送性も備えている。
我々はブラックボックス設定で広範な実験を行い、ASTRAが平均攻撃成功率82.7%を達成し、ベースラインを著しく上回る結果となった。
関連論文リスト
- Genesis: Evolving Attack Strategies for LLM Web Agent Red-Teaming [45.95972813586392]
既存のレッドチーム方式は、主にオフラインでトレーニングされた手作業による攻撃戦略や静的モデルに依存している。
我々は,アタッカー,スコラー,ストラテジストの3つのモジュールからなる新しいエージェントフレームワークであるGenesisを提案する。
我々のフレームワークは、新しい戦略を発見し、既存の攻撃ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-10-21T05:49:37Z) - AutoDAN-Reasoning: Enhancing Strategies Exploration based Jailbreak Attacks with Test-Time Scaling [54.47844626555395]
AutoDAN-Turboは生涯学習エージェントを使用して、攻撃戦略の豊富なライブラリをゼロから構築する。
非常に効果的ではあるが、そのテスト時間生成プロセスは戦略をサンプリングし、対応する1つの攻撃プロンプトを生成する。
本稿では,テスト時間スケーリングによるAutoDAN-Turboの攻撃性能の向上を提案する。
論文 参考訳(メタデータ) (2025-10-06T21:16:09Z) - MAJIC: Markovian Adaptive Jailbreaking via Iterative Composition of Diverse Innovative Strategies [27.162196792311263]
大きな言語モデル(LLM)は目覚ましい能力を示したが、ジェイルブレイク攻撃には弱いままである。
我々は,多様な革新的な変装戦略を反復的に組み合わせてブラックボックスLLMを攻撃するマルコフ適応型ジェイルブレイクフレームワークMAJICを提案する。
GPT-4o や Gemini-2.0-flash などの著名なモデルでは,MAJIC が既存のjailbreak 手法を著しく上回っていることが実証された。
論文 参考訳(メタデータ) (2025-08-18T16:09:57Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z) - Projective Ranking-based GNN Evasion Attacks [52.85890533994233]
グラフニューラルネットワーク(GNN)は、グラフ関連のタスクに対して、有望な学習方法を提供する。
GNNは敵の攻撃の危険にさらされている。
論文 参考訳(メタデータ) (2022-02-25T21:52:09Z) - Robust Federated Learning with Attack-Adaptive Aggregation [45.60981228410952]
フェデレート学習は、モデル中毒やバックドア攻撃など、様々な攻撃に対して脆弱である。
本研究では,ロバスト学習のためのアタック・アダプティブ・アグリゲーション戦略を提案する。
論文 参考訳(メタデータ) (2021-02-10T04:23:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。