論文の概要: Beyond Fixed and Dynamic Prompts: Embedded Jailbreak Templates for Advancing LLM Security
- arxiv url: http://arxiv.org/abs/2511.14140v1
- Date: Tue, 18 Nov 2025 04:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.943403
- Title: Beyond Fixed and Dynamic Prompts: Embedded Jailbreak Templates for Advancing LLM Security
- Title(参考訳): 固定および動的プロンプトを超えて - LLMセキュリティを改善するための組み込みのジェイルブレイクテンプレート
- Authors: Hajun Kim, Hyunsik Na, Daeseon Choi,
- Abstract要約: 本稿では,コンテキスト内に有害なクエリを自然に埋め込んだまま,既存のテンプレートの構造を保存するEmbed Jailbreakテンプレートを紹介する。
本稿では,テンプレートの品質と一貫性を確保するためのプログレッシブプロンプトエンジニアリング手法を提案する。
- 参考スコア(独自算出の注目度): 5.187020963919454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the use of large language models (LLMs) continues to expand, ensuring their safety and robustness has become a critical challenge. In particular, jailbreak attacks that bypass built-in safety mechanisms are increasingly recognized as a tangible threat across industries, driving the need for diverse templates to support red-teaming efforts and strengthen defensive techniques. However, current approaches predominantly rely on two limited strategies: (i) substituting harmful queries into fixed templates, and (ii) having the LLM generate entire templates, which often compromises intent clarity and reproductibility. To address this gap, this paper introduces the Embedded Jailbreak Template, which preserves the structure of existing templates while naturally embedding harmful queries within their context. We further propose a progressive prompt-engineering methodology to ensure template quality and consistency, alongside standardized protocols for generation and evaluation. Together, these contributions provide a benchmark that more accurately reflects real-world usage scenarios and harmful intent, facilitating its application in red-teaming and policy regression testing.
- Abstract(参考訳): 大きな言語モデル(LLM)の使用が拡大を続けるにつれ、安全性と堅牢性を保証することが重要な課題となっている。
特に、ビルトインの安全メカニズムをバイパスするジェイルブレイク攻撃は、産業間の具体的な脅威として認識され、レッドチームへの取り組みと防御技術強化を支援する多様なテンプレートの必要性が高まっている。
しかし、現在のアプローチは主に2つの限られた戦略に依存している。
一 有害なクエリを定型テンプレートに置換すること
(II)LLMにテンプレート全体を生成させると、意図的明快さと再現性が損なわれることが多い。
このギャップに対処するため、本稿では、コンテキスト内に有害なクエリを自然に埋め込みながら、既存のテンプレートの構造を保存するEmbed Jailbreakテンプレートを紹介します。
さらに、テンプレートの品質と一貫性を確保するためのプログレッシブプロンプトエンジニアリング手法と、生成および評価のための標準化されたプロトコルを提案する。
これらのコントリビューションは、実際の使用シナリオと有害な意図をより正確に反映したベンチマークを提供し、レッドチームやポリシー回帰テストにおけるその適用を容易にします。
関連論文リスト
- Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs [39.85609149662187]
DLLMのユニークな安全性の弱点を生かした、最初の系統的な研究および脱獄攻撃フレームワークであるDIJAを提案する。
提案するDIJAは,dLLMのテキスト生成機構を利用した対向的インターリーブ・マスクテキストプロンプトを構築する。
本研究は, 新たな言語モデルにおいて, 安全アライメントの再考の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-07-15T08:44:46Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region [13.962617572588393]
テンプレートアンコレッド型安全アライメントは,多種多様な大言語モデル(LLM)にまたがっていることを示す。
我々の力学解析は、推論時ジェイルブレイク攻撃に遭遇した場合、モデルがどのような影響を受けやすいかを示す。
テンプレート領域から安全メカニズムを分離することで,脆弱性の軽減と脱獄攻撃が期待できることを示す。
論文 参考訳(メタデータ) (2025-02-19T18:42:45Z) - Exploiting Prefix-Tree in Structured Output Interfaces for Enhancing Jailbreak Attacking [34.479355499938116]
大規模言語モデル(LLM)は、重要なアプリケーションをもたらすだけでなく、深刻なセキュリティ脅威も導入している。
我々はAttackPrefixTree (APT)と呼ばれるブラックボックス攻撃フレームワークを導入する。
APTは構造化された出力インタフェースを利用して攻撃パターンを動的に構築する。
ベンチマークデータセットの実験は、このアプローチが既存の手法よりも高い攻撃成功率を達成することを示している。
論文 参考訳(メタデータ) (2025-02-19T08:29:36Z) - Model-Editing-Based Jailbreak against Safety-aligned Large Language Models [13.887770576598646]
大規模言語モデル(LLM)は、先進的な自然言語相互作用を実現することによって、多くの分野を変革してきた。
本稿では,安全フィルタをバイパスする新しいホワイトボックス手法であるターゲットモデル編集(TME)を提案する。
TMEはモデル行列に埋め込まれた安全クリティカルトランスフォーメーション(SCT)を特定し、削除し、悪意のあるクエリが制限をバイパスできるようにする。
論文 参考訳(メタデータ) (2024-12-11T08:44:15Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。