論文の概要: Formalization Driven LLM Prompt Jailbreaking via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.23558v1
- Date: Sun, 28 Sep 2025 01:38:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.287925
- Title: Formalization Driven LLM Prompt Jailbreaking via Reinforcement Learning
- Title(参考訳): 強化学習による形式化駆動型LLMプロンプト脱獄
- Authors: Zhaoqi Wang, Daqing He, Zijian Zhang, Xin Li, Liehuang Zhu, Meng Li, Jiamou Liu,
- Abstract要約: PASSは、初期のジェイルブレイクプロンプトを形式化された記述に変換するために強化学習を使用している。
我々は、共通のオープンソースモデルに関する広範な実験を行い、攻撃の有効性を実証した。
- 参考スコア(独自算出の注目度): 48.100552417137656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities, yet they also introduce novel security challenges. For instance, prompt jailbreaking attacks involve adversaries crafting sophisticated prompts to elicit responses from LLMs that deviate from human values. To uncover vulnerabilities in LLM alignment methods, we propose the PASS framework (\underline{P}rompt J\underline{a}ilbreaking via \underline{S}emantic and \underline{S}tructural Formalization). Specifically, PASS employs reinforcement learning to transform initial jailbreak prompts into formalized descriptions, which enhances stealthiness and enables bypassing existing alignment defenses. The jailbreak outputs are then structured into a GraphRAG system that, by leveraging extracted relevant terms and formalized symbols as contextual input alongside the original query, strengthens subsequent attacks and facilitates more effective jailbreaks. We conducted extensive experiments on common open-source models, demonstrating the effectiveness of our attack.
- Abstract(参考訳): 大きな言語モデル(LLM)は目覚ましい能力を示しているが、新しいセキュリティ課題も導入している。
例えば、迅速なジェイルブレイク攻撃は、敵が人間の価値から逸脱するLDMからの応答を誘発する洗練されたプロンプトを作成することを含む。
LLMアライメント手法の脆弱性を明らかにするために,PASS フレームワーク (\underline{P}rompt J\underline{a}ilbreaking via \underline{S}emantic and \underline{S}tructural Formalization) を提案する。
具体的には、PASSは強化学習を使用して、初期ジェイルブレイクプロンプトを形式化された記述に変換することで、ステルス性を高め、既存のアライメント防御をバイパスすることができる。
次に、ジェイルブレイク出力をGraphRAGシステムに構成し、抽出した関連する用語と形式化されたシンボルを、元のクエリと並行してコンテキスト入力として利用することで、その後の攻撃を強化し、より効果的なジェイルブレイクを促進する。
我々は、オープンソースモデルに対する広範な実験を行い、攻撃の有効性を実証した。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - RePD: Defending Jailbreak Attack through a Retrieval-based Prompt Decomposition Process [23.66988994636578]
我々は,大規模言語モデル(LLM)に対するジェイルブレイク攻撃のリスクを軽減するために設計された,革新的な攻撃フレームワークであるPDを導入する。
RePDはワンショットの学習モデルで動作し、Jailbreakプロンプトテンプレートのデータベースにアクセスして、ユーザプロンプトに埋め込まれた有害な問い合わせを特定して分解する。
我々は,典型的なユーザ要求に応答する際の性能を損なうことなく,LDMのジェイルブレイク攻撃に対するレジリエンスを高めるためのRePDの有効性を実証した。
論文 参考訳(メタデータ) (2024-10-11T09:39:11Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。