論文の概要: Online Learning Defense against Iterative Jailbreak Attacks via Prompt Optimization
- arxiv url: http://arxiv.org/abs/2510.17006v1
- Date: Sun, 19 Oct 2025 21:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.930352
- Title: Online Learning Defense against Iterative Jailbreak Attacks via Prompt Optimization
- Title(参考訳): プロンプト最適化による反復的ジェイルブレイク攻撃に対するオンライン学習防御
- Authors: Masahiro Kaneko, Zeerak Talat, Timothy Baldwin,
- Abstract要約: 反復的なjailbreakメソッドが繰り返し書き直され、大きな言語モデルに入力し、有害な出力を誘導する。
本稿では,反復的ジェイルブレイク手法による新たなプロンプトに応答して,オンライン学習を通じて防衛戦略を動的に更新するフレームワークを提案する。
本手法は,5つの反復的ジェイルブレイク法に対して,既存の5つの防御法を著しく上回っている。
- 参考スコア(独自算出の注目度): 45.9588749620344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Iterative jailbreak methods that repeatedly rewrite and input prompts into large language models (LLMs) to induce harmful outputs -- using the model's previous responses to guide each new iteration -- have been found to be a highly effective attack strategy. Despite being an effective attack strategy against LLMs and their safety mechanisms, existing defenses do not proactively disrupt this dynamic trial-and-error cycle. In this study, we propose a novel framework that dynamically updates its defense strategy through online learning in response to each new prompt from iterative jailbreak methods. Leveraging the distinctions between harmful jailbreak-generated prompts and typical harmless prompts, we introduce a reinforcement learning-based approach that optimizes prompts to ensure appropriate responses for harmless tasks while explicitly rejecting harmful prompts. Additionally, to curb overfitting to the narrow band of partial input rewrites explored during an attack, we introduce Past-Direction Gradient Damping (PDGD). Experiments conducted on three LLMs show that our approach significantly outperforms five existing defense methods against five iterative jailbreak methods. Moreover, our results indicate that our prompt optimization strategy simultaneously enhances response quality for harmless tasks.
- Abstract(参考訳): 繰り返し書き直しや入力のプロンプトを大きな言語モデル(LLM)に入力し、有害なアウトプットを誘導する反復的ジェイルブレイクメソッドが、モデルの以前のレスポンスを使って、新しいイテレーションをガイドすることで、非常に効果的な攻撃戦略であることが判明した。
LLMとその安全機構に対する効果的な攻撃戦略であるにもかかわらず、既存の防御は、この動的な試行錯誤サイクルを積極的に破壊するわけではない。
本研究では,反復的ジェイルブレイク手法による新たなプロンプトに応じて,オンライン学習を通じて防衛戦略を動的に更新する新しいフレームワークを提案する。
有害なジェイルブレイク生成プロンプトと典型的な有害なプロンプトの区別を生かし、有害なプロンプトを明示的に拒否しつつ、有害なタスクに対する適切な応答を確保するためにプロンプトを最適化する強化学習ベースのアプローチを導入する。
さらに,攻撃時に探索された部分的な書き直しの狭い帯域への過度な適合を抑制するために,過去方向勾配減衰(PDGD)を導入する。
3つのLDM実験により,本手法は既存の5つの防御法と5つの反復ジェイルブレイク法とを著しく上回る結果を得た。
さらに,本研究の結果から,無害タスクに対する応答品質を同時に向上させることが示唆された。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - JailPO: A Novel Black-box Jailbreak Framework via Preference Optimization against Aligned LLMs [11.924542310342282]
我々は、LLM(Large Language Models)アライメントを調べるための新しいブラックボックスジェイルブレイクフレームワークであるJailPOを紹介する。
スケーラビリティと普遍性のために、JailPOは攻撃モデルを慎重に訓練し、隠蔽されたジェイルブレイクプロンプトを自動的に生成する。
また、優先最適化に基づく攻撃手法を導入し、ジェイルブレイクの有効性を高める。
論文 参考訳(メタデータ) (2024-12-20T07:29:10Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。
第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。
第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T15:37:15Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。