論文の概要: Stand on The Shoulders of Giants: Building JailExpert from Previous Attack Experience
- arxiv url: http://arxiv.org/abs/2508.19292v1
- Date: Mon, 25 Aug 2025 14:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.355325
- Title: Stand on The Shoulders of Giants: Building JailExpert from Previous Attack Experience
- Title(参考訳): ジャイアンツの肩に立つ - これまでのアタック体験からジェイルエクストラを構築する
- Authors: Xi Wang, Songlei Jian, Shasha Li, Xiaopeng Li, Bin Ji, Jun Ma, Xiaodong Liu, Jing Wang, Feilong Bao, Jianfeng Zhang, Baosheng Wang, Jie Yu,
- Abstract要約: 大規模言語モデル(LLM)は、一定の安全性の制約の下で、ヒューマンアラインなコンテンツを生成する。
textbfJailExpertフレームワークは、初めてエクスペリエンス構造を形式的に表現したフレームワークである。
JailExpertは平均17%の攻撃成功率と2.7倍の改善を実現している。
- 参考スコア(独自算出の注目度): 36.525169416008886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) generate human-aligned content under certain safety constraints. However, the current known technique ``jailbreak prompt'' can circumvent safety-aligned measures and induce LLMs to output malicious content. Research on Jailbreaking can help identify vulnerabilities in LLMs and guide the development of robust security frameworks. To circumvent the issue of attack templates becoming obsolete as models evolve, existing methods adopt iterative mutation and dynamic optimization to facilitate more automated jailbreak attacks. However, these methods face two challenges: inefficiency and repetitive optimization, as they overlook the value of past attack experiences. To better integrate past attack experiences to assist current jailbreak attempts, we propose the \textbf{JailExpert}, an automated jailbreak framework, which is the first to achieve a formal representation of experience structure, group experiences based on semantic drift, and support the dynamic updating of the experience pool. Extensive experiments demonstrate that JailExpert significantly improves both attack effectiveness and efficiency. Compared to the current state-of-the-art black-box jailbreak methods, JailExpert achieves an average increase of 17\% in attack success rate and 2.7 times improvement in attack efficiency. Our implementation is available at \href{https://github.com/xiZAIzai/JailExpert}{XiZaiZai/JailExpert}
- Abstract(参考訳): 大規模言語モデル(LLM)は、一定の安全性の制約の下で、ヒューマンアラインなコンテンツを生成する。
しかし、現在の技術である「jailbreak prompt」は、安全に配慮した対策を回避し、LSMを誘導して悪意のあるコンテンツを出力する。
Jailbreakingの研究は、LLMの脆弱性を特定し、堅牢なセキュリティフレームワークの開発をガイドするのに役立ちます。
モデルの発展に伴ってアタックテンプレートが時代遅れになるのを回避するため、既存の手法では反復的突然変異と動的最適化を採用して、より自動化されたjailbreak攻撃を容易にする。
しかし、これらの手法は、過去の攻撃経験の価値を見落としているため、非効率性と繰り返し最適化の2つの課題に直面している。
このフレームワークは、経験構造を形式的に表現し、セマンティックドリフトに基づいたグループ体験を初めて達成し、経験プールの動的更新をサポートする。
大規模な実験では、JailExpertは攻撃効率と効率の両方を著しく改善している。
現在の最先端のブラックボックスジェイルブレイク法と比較すると、JailExpert は攻撃成功率の平均 17 % と攻撃効率 2.7 倍の改善を達成した。
我々の実装は \href{https://github.com/xiZAIzai/JailExpert}{XiZai/JailExpert} で利用可能です。
関連論文リスト
- Activation-Guided Local Editing for Jailbreaking Attacks [33.13949817155855]
トークンレベルのジェイルブレイク攻撃は、しばしば不整合または読めない入力を生み出す。
即時攻撃はスケーラビリティに欠けており、手作業や人間の創造性に大きく依存している。
本稿では,これらのアプローチの利点を組み合わせた,簡潔で効果的な2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-01T11:52:24Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - JailPO: A Novel Black-box Jailbreak Framework via Preference Optimization against Aligned LLMs [11.924542310342282]
我々は、LLM(Large Language Models)アライメントを調べるための新しいブラックボックスジェイルブレイクフレームワークであるJailPOを紹介する。
スケーラビリティと普遍性のために、JailPOは攻撃モデルを慎重に訓練し、隠蔽されたジェイルブレイクプロンプトを自動的に生成する。
また、優先最適化に基づく攻撃手法を導入し、ジェイルブレイクの有効性を高める。
論文 参考訳(メタデータ) (2024-12-20T07:29:10Z) - SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
大規模言語モデル(LLM)は、有害なコンテンツを生成するよう誘導するジェイルブレイク攻撃の影響を受けやすい。
本稿では,LLMの外部特性をターゲットとした新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation Models [15.582860145268553]
JailFuzzerは、大きな言語モデル(LLM)エージェントによって駆動される新しいファジングフレームワークである。
自然かつ意味的に一貫性のあるプロンプトを生成し、従来の防御による検出の可能性を減らす。
クエリオーバーヘッドを最小限に抑えたジェイルブレイク攻撃で高い成功率を達成する。
論文 参考訳(メタデータ) (2024-08-01T12:54:46Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。