論文の概要: Safety Paradox: How Enhanced Safety Awareness Leaves LLMs Vulnerable to Posterior Attack
- arxiv url: http://arxiv.org/abs/2606.05614v1
- Date: Thu, 04 Jun 2026 02:36:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.501198
- Title: Safety Paradox: How Enhanced Safety Awareness Leaves LLMs Vulnerable to Posterior Attack
- Title(参考訳): 安全パラドックス:LLMは後部攻撃に耐えられる
- Authors: Long P. Hoang, Hai V. Le, Shaoyang Xu, Wei Lu, Wenxuan Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、有害な要求を拒否するために厳格に整列されている。
本研究では、この高度な安全意識が必然的に致命的な脆弱性をもたらすことを明らかにする。
- 参考スコア(独自算出の注目度): 19.201635180438313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are rigorously aligned to refuse harmful requests, a process that inherently cultivates a latent capacity to evaluate and recognize unsafe content. In this work, we reveal that this advanced safety awareness inadvertently introduces a fatal vulnerability. We introduce Posterior Attack, a single-query jailbreak that bypasses guardrails by prompting the model to generate the exact harmful response its internal classifier would normally flag as unsafe. Through extensive empirical evaluation across 30 open-source LLMs (up to 35B parameters in size) and frontier models (e.g., GPT-5, Claude 4.6), we observe a striking phenomenon: models with superior safety-judgment capabilities are disproportionately more susceptible to this exploitation. To explain this, we formalize the Safety Paradox, analytically showing that monotonic improvements in safety alignment naturally amplify posterior vulnerability. Finally, we establish a causal link via reinforcement learning interventions, exemplifying that artificially degrading a model's safety judgment immunizes it against the attack, whereas enhancing judgment exacerbates the vulnerability. Our findings highlight potential flaws in current alignment paradigms, indicating that defense mechanisms may require further structural refinement.
- Abstract(参考訳): 大規模言語モデル(LLM)は、有害な要求を拒否するために厳格に整合している。
本研究では、この高度な安全意識が必然的に致命的な脆弱性をもたらすことを明らかにする。
Posterior Attackは単一クエリのジェイルブレイクで、内部分類器が通常安全でないとフラグする、正確な有害な応答を生成するようモデルに促すことでガードレールをバイパスする。
30個のオープンソースLCM(最大35Bのパラメータ)とフロンティアモデル(例えば、GPT-5、Claude 4.6)にまたがる広範な実験的な評価を通じて、我々は驚くべき現象を観察した。
これを説明するために、安全パラドックスを定式化し、安全アライメントにおける単調な改善が後部脆弱性を自然に増幅することを示した。
最後に、強化学習の介入を通じて因果関係を確立し、モデルの安全性判断を人為的に劣化させることが攻撃に対して免疫を生じさせるのに対して、判断の強化は脆弱性を悪化させることを実証する。
本研究は, 現状のアライメントパラダイムの潜在的な欠陥を浮き彫りにして, 防御機構がさらなる構造改善を必要とすることを示唆するものである。
関連論文リスト
- Internalizing Safety Understanding in Large Reasoning Models via Verification [33.2377930782685]
本稿では,安全確認タスクにのみ焦点をあてた LRM のトレーニングにより,安全性仕様を内部化するフレームワークを提案する。
検証の学習は、応答安全性の強力な一般化を誘導し、ドメイン外ジェイルブレイクに対する堅牢性を著しく向上させることを示した。
論文 参考訳(メタデータ) (2026-05-09T13:05:00Z) - Self-Guard: Defending Large Reasoning Models via enhanced self-reflection [54.775612141528164]
Self-Guardは、大規模推論モデルのための軽量な安全防御フレームワークである。
これは認識とコンプライアンスのギャップを埋め、モデルユーティリティを損なうことなく堅牢な安全性能を達成する。
セルフガードは、さまざまな未知のリスクとさまざまなモデルスケールにまたがる強力な一般化を示す。
論文 参考訳(メタデータ) (2026-01-31T13:06:11Z) - SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment [43.86865924673546]
軽量なゲートウェイ分類器を介して防御資源を割り当てる適応型フレームワークであるSafeThinkerを提案する。
実験によると、SafeThinkerは、堅牢性を損なうことなく、さまざまなジェイルブレイク戦略における攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2026-01-23T07:12:53Z) - When Models Outthink Their Safety: Mitigating Self-Jailbreak in Large Reasoning Models with Chain-of-Guardrails [74.63933201261595]
大規模推論モデル(LRM)は複雑な推論タスクにおいて顕著な能力を示す。
LRMは、有害なコンテンツ生成やジェイルブレイク攻撃など、深刻な安全リスクに弱いままである。
安全でない推論ステップを再構成またはバックトラックするトレーニングフレームワークであるChain-of-Guardrail(CoG)を提案する。
論文 参考訳(メタデータ) (2025-10-24T09:32:25Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Breach By A Thousand Leaks: Unsafe Information Leakage in `Safe' AI Responses [42.136793654338106]
モデル出力の不可避な情報漏洩に基づく新しい安全性評価フレームワークを提案する。
我々は,情報検閲の安全性を確保するために,防衛機構が情報検閲を確実にする必要があることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。