論文の概要: Forewarned is Forearmed: Pre-Synthesizing Jailbreak-like Instructions to Enhance LLM Safety Guardrail to Potential Attacks
- arxiv url: http://arxiv.org/abs/2508.20038v1
- Date: Wed, 27 Aug 2025 16:44:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.712218
- Title: Forewarned is Forearmed: Pre-Synthesizing Jailbreak-like Instructions to Enhance LLM Safety Guardrail to Potential Attacks
- Title(参考訳): LLMの安全ガードレールを危険にさらすために、ジェイルブレイクのような合成前インストラクションを準備中
- Authors: Sheng Liu, Qiang Sheng, Danding Wang, Yang Li, Guang Yang, Juan Cao,
- Abstract要約: 新しい攻撃は、LLMが目に見えない悪意のある命令を認識できないことを露呈する。
組込み空間分布解析を利用してジェイルブレイクのような命令を生成する合成フレームワークIMAGINEを提案する。
Qwen2.5, Llama3.1, Llama3.2の攻撃成功率は, 有効性を損なうことなく著しく低下した。
- 参考スコア(独自算出の注目度): 29.465042445657947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advances in improving large language model(LLM) to refuse to answer malicious instructions, widely used LLMs remain vulnerable to jailbreak attacks where attackers generate instructions with distributions differing from safety alignment corpora. New attacks expose LLMs' inability to recognize unseen malicious instructions, highlighting a critical distributional mismatch between training data and real-world attacks that forces developers into reactive patching cycles. To tackle this challenge, we propose IMAGINE, a synthesis framework that leverages embedding space distribution analysis to generate jailbreak-like instructions. This approach effectively fills the distributional gap between authentic jailbreak patterns and safety alignment corpora. IMAGINE follows an iterative optimization process that dynamically evolves text generation distributions across iterations, thereby augmenting the coverage of safety alignment data distributions through synthesized data examples. Based on the safety-aligned corpus enhanced through IMAGINE, our framework demonstrates significant decreases in attack success rate on Qwen2.5, Llama3.1, and Llama3.2 without compromising their utility.
- Abstract(参考訳): 悪意のある命令への応答を拒否する大規模言語モデル(LLM)の改善の進歩にもかかわらず、広く使われているLLMは、攻撃者が安全アライメントコーパスとは異なる分布で命令を生成するジェイルブレイク攻撃に弱いままである。
新たな攻撃は、LLMが目に見えない悪意のある命令を認識できないことを露呈し、トレーニングデータと開発者のリアクティブパッチサイクルに強制する現実世界の攻撃の間の重要な分散ミスマッチを強調している。
この課題に対処するために、埋め込み空間分布解析を利用してジェイルブレイクのような命令を生成する合成フレームワークIMAGINEを提案する。
この手法は、真正ジェイルブレイクパターンと安全アライメントコーパスの分布ギャップを効果的に埋める。
IMAGINEは、反復間でテキスト生成分布を動的に進化させる反復最適化プロセスに従い、合成データ例を通して安全アライメントデータ分布のカバレッジを増大させる。
IMAGINEにより強化された安全対応コーパスに基づいて,本フレームワークはQwen2.5,Llama3.1,Llama3.2の攻撃成功率を大幅に低下させる。
関連論文リスト
- The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs [39.85609149662187]
DLLMのユニークな安全性の弱点を生かした、最初の系統的な研究および脱獄攻撃フレームワークであるDIJAを提案する。
提案するDIJAは,dLLMのテキスト生成機構を利用した対向的インターリーブ・マスクテキストプロンプトを構築する。
本研究は, 新たな言語モデルにおいて, 安全アライメントの再考の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-07-15T08:44:46Z) - Prefill-level Jailbreak: A Black-Box Risk Analysis of Large Language Models [6.049325292667881]
本報告では,プリフィルレベルジェイルブレイク攻撃のブラックボックスセキュリティ解析について述べる。
実験の結果,いくつかのモデルでは適応手法が99%を超え,プレフィルレベル攻撃が高い成功率を達成することが示された。
その結果,プロンプトとプリフィルの操作関係に着目した検出法がより効果的であることが判明した。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。