論文の概要: When Style Breaks Safety: Defending Language Models Against Superficial Style Alignment
- arxiv url: http://arxiv.org/abs/2506.07452v1
- Date: Mon, 09 Jun 2025 05:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.818374
- Title: When Style Breaks Safety: Defending Language Models Against Superficial Style Alignment
- Title(参考訳): スタイルが安全を損なうとき - 表面的なスタイルアライメントに対する言語モデルを守る
- Authors: Yuxin Xiao, Sana Tonekaboni, Walter Gerych, Vinith Suriyakumar, Marzyeh Ghassemi,
- Abstract要約: スタイルパターンを持つ悪意のあるクエリは、ほぼすべてのモデルに対するアタック成功率(ASR)を増大させる。
特定のスタイルで微調整することで、LDMは同じスタイルのジェイルブレイクに対してより脆弱になる。
そこで本研究では,少数の安全訓練データを組み込んだ防衛戦略であるSafeStyleを提案する。
- 参考スコア(独自算出の注目度): 13.861981436265426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can be prompted with specific styles (e.g., formatting responses as lists), including in jailbreak queries. Although these style patterns are semantically unrelated to the malicious intents behind jailbreak queries, their safety impact remains unclear. In this work, we seek to understand whether style patterns compromise LLM safety, how superficial style alignment increases model vulnerability, and how best to mitigate these risks during alignment. We evaluate 32 LLMs across seven jailbreak benchmarks, and find that malicious queries with style patterns inflate the attack success rate (ASR) for nearly all models. Notably, ASR inflation correlates with both the length of style patterns and the relative attention an LLM exhibits on them. We then investigate superficial style alignment, and find that fine-tuning with specific styles makes LLMs more vulnerable to jailbreaks of those same styles. Finally, we propose SafeStyle, a defense strategy that incorporates a small amount of safety training data augmented to match the distribution of style patterns in the fine-tuning data. Across three LLMs and five fine-tuning style settings, SafeStyle consistently outperforms baselines in maintaining LLM safety.
- Abstract(参考訳): 大きな言語モデル(LLM)は、jailbreakクエリを含む特定のスタイル(例えば、リストとして応答をフォーマットするなど)でトリガーすることができる。
これらのスタイルパターンは、ジェイルブレイククエリの背後にある悪意のある意図とは意味的に無関係であるが、その安全性への影響は未だ不明である。
本研究では,LLMの安全性を損なうか,表面的なスタイルアライメントがモデルの脆弱性をいかに増大させるか,そしてアライメント中にこれらのリスクを緩和する最善の方法について検討する。
7つのjailbreakベンチマークで32のLLMを評価し、スタイルパターンを持つ悪意のあるクエリが、ほぼすべてのモデルに対する攻撃成功率(ASR)を増大させることを示した。
特に、ASRインフレーションは、スタイルパターンの長さとLLMが示す相対的な注意の両方に相関する。
次に、表面的なスタイルのアライメントを調査し、特定のスタイルで微調整することで、LLMが同じスタイルのジェイルブレイクに対してより脆弱になることを示す。
最後に,少数の安全訓練データを組み込んだ防衛戦略であるSafeStyleを提案する。
3つのLLMと5つの微調整スタイルのセッティングにおいて、SafeStyleはLLMの安全性を維持する上で一貫してベースラインを上回っている。
関連論文リスト
- Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - Stochastic Monkeys at Play: Random Augmentations Cheaply Break LLM Safety Alignment [16.5939079098358]
本稿では,入力に対する単純なランダムな拡張が,最先端のLCMにおける安全アライメントの有効性にどのように影響するかを検討する。
低リソース・無知な攻撃者は1プロンプト当たり25のランダムな拡張でアライメントを回避できる可能性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2024-11-05T03:51:13Z) - Data to Defense: The Role of Curation in Customizing LLMs Against Jailbreaking Attacks [13.381678819086469]
大規模言語モデル(LLM)は、カスタマイズと呼ばれるプロセスである微調整を通じて下流アプリケーションに広く適用されている。
悪意のあるサンプルは、LSMの堅牢性を損なう可能性があり、有害な振る舞いを増幅する。
本稿では,任意のテキストをキュレーションして,カスタマイズ時に有害なサンプルを防止できる適応型データキュレーション手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T05:24:38Z) - AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs [34.221522224051846]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃を適応的に行うための適応的位置補充型ジェイルブレイク攻撃手法を提案する。
提案手法は,提案モデルの命令追従能力を利用して,まず安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。
本手法は,従来の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上させることができる。
論文 参考訳(メタデータ) (2024-09-11T00:00:58Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。