論文の概要: Stop Testing Attacks, Start Diagnosing Defenses: The Four-Checkpoint Framework Reveals Where LLM Safety Breaks
- arxiv url: http://arxiv.org/abs/2602.09629v1
- Date: Tue, 10 Feb 2026 10:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.494098
- Title: Stop Testing Attacks, Start Diagnosing Defenses: The Four-Checkpoint Framework Reveals Where LLM Safety Breaks
- Title(参考訳): 攻撃をやめて、防衛を診断する - LLMの安全性が損なわれる4つのチェックポイントフレームワーク
- Authors: Hayfa Dhabhi, Kashyap Thimmaraju,
- Abstract要約: 大きな言語モデル(LLM)は有害な出力を防ぐための安全メカニズムを配置するが、これらの防御は敵のプロンプトに弱いままである。
textbfFour-Checkpoint Frameworkを導入し、処理ステージ(インプット対出力)と検出レベル(リテラル対インテント)の2次元に沿って安全メカニズムを整理する。
GPT-5, Claude Sonnet 4, Gemini 2.5 Proを3,312個の単ターンブラックボックステストケースで評価した。
- 参考スコア(独自算出の注目度): 0.2291770711277359
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) deploy safety mechanisms to prevent harmful outputs, yet these defenses remain vulnerable to adversarial prompts. While existing research demonstrates that jailbreak attacks succeed, it does not explain \textit{where} defenses fail or \textit{why}. To address this gap, we propose that LLM safety operates as a sequential pipeline with distinct checkpoints. We introduce the \textbf{Four-Checkpoint Framework}, which organizes safety mechanisms along two dimensions: processing stage (input vs.\ output) and detection level (literal vs.\ intent). This creates four checkpoints, CP1 through CP4, each representing a defensive layer that can be independently evaluated. We design 13 evasion techniques, each targeting a specific checkpoint, enabling controlled testing of individual defensive layers. Using this framework, we evaluate GPT-5, Claude Sonnet 4, and Gemini 2.5 Pro across 3,312 single-turn, black-box test cases. We employ an LLM-as-judge approach for response classification and introduce Weighted Attack Success Rate (WASR), a severity-adjusted metric that captures partial information leakage overlooked by binary evaluation. Our evaluation reveals clear patterns. Traditional Binary ASR reports 22.6\% attack success. However, WASR reveals 52.7\%, a 2.3$\times$ higher vulnerability. Output-stage defenses (CP3, CP4) prove weakest at 72--79\% WASR, while input-literal defenses (CP1) are strongest at 13\% WASR. Claude achieves the strongest safety (42.8\% WASR), followed by GPT-5 (55.9\%) and Gemini (59.5\%). These findings suggest that current defenses are strongest at input-literal checkpoints but remain vulnerable to intent-level manipulation and output-stage techniques. The Four-Checkpoint Framework provides a structured approach for identifying and addressing safety vulnerabilities in deployed systems.
- Abstract(参考訳): 大きな言語モデル(LLM)は有害な出力を防ぐための安全メカニズムを配置するが、これらの防御は敵のプロンプトに弱いままである。
既存の調査では、jailbreak攻撃が成功することを示しているが、‘textit{where}’ディフェンスが失敗するか、‘textit{why}’を説明できない。
このギャップに対処するため、LLMの安全性は個別のチェックポイントを持つシーケンシャルパイプラインとして機能することを提案する。
このフレームワークは,処理段階(入出力vs.1)の2次元に沿って安全機構を整理する。
出力)と検出レベル(リテラル対。
の意)。
これにより、CP1からCP4までの4つのチェックポイントが生成される。
我々は13の回避手法を設計し、それぞれ特定のチェックポイントをターゲットにし、個々の防御層の制御テストを可能にする。
GPT-5, Claude Sonnet 4, Gemini 2.5 Proを3,312個の単ターンブラックボックステストケースで評価した。
応答分類にはLLM-as-judgeアプローチを採用し、重度調整された測定基準である重み付き攻撃成功率(WASR)を導入し、バイナリ評価で見落としている部分的な情報漏洩を捉える。
私たちの評価は明らかなパターンを明らかにします。
伝統的なBinary ASRは22.6\%の攻撃成功を報告している。
しかし、WASRは52.7\%、すなわち2.3$\times$高い脆弱性を明らかにしている。
出力ステージディフェンス (CP3, CP4) は 72--79\% WASR で最も弱いが, 入力リテラルディフェンス (CP1) は 13\% WASR で最強である。
クロードは最高安全性(42.8 % WASR)、続いてGPT-5(55.9 %)、ジェミニ(59.5 %)を達成している。
これらの結果から,現在の防御はインプットリテラルチェックポイントにおいて最強であるが,インテントレベルの操作やアウトプットステージ技術には弱いことが示唆された。
Four-Checkpoint Frameworkは、デプロイされたシステムの安全性上の脆弱性を特定し、対処するための構造化されたアプローチを提供する。
関連論文リスト
- Defending Large Language Models Against Jailbreak Exploits with Responsible AI Considerations [0.9732319879728966]
大きな言語モデル(LLM)は、安全フィルタを回避し、有害または非倫理的な振る舞いを誘発するジェイルブレイクの悪用に影響を受けやすいままである。
この研究は、即時レベル、モデルレベル、トレーニングタイムの介入にまたがって、既存のジェイルブレイク防御の体系的な分類を提示している。
論文 参考訳(メタデータ) (2025-11-24T09:38:11Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - DeepResearchGuard: Deep Research with Open-Domain Evaluation and Multi-Stage Guardrails for Safety [55.30944259390733]
ディープリサーチフレームワークは一般的に、信頼性、一貫性、幅、深さ、安全性などのレポート品質の重要な側面を見落としている。
DeEPRESEARCHGUARDは、4段階の安全ガードと参照とレポートのオープンドメイン評価を備えた総合的なフレームワークである。
我々は,GPT-4o,Gemini-2.5-flash,DeepSeek-v3,o4-miniなど,最先端のLLMのさまざまな評価を行った。
論文 参考訳(メタデータ) (2025-10-13T04:11:21Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Exploring the Vulnerability of the Content Moderation Guardrail in Large Language Models via Intent Manipulation [29.8288014123234]
本研究では,意図認識型ガードレールの脆弱性を調査し,大規模言語モデルが暗黙の意図検出能力を示すことを示す。
IntentPromptという2段階のインテントベースのプロンプトリファインメントフレームワークを提案し、まず有害な問い合わせを構造化されたアウトラインに変換し、さらに宣言的なスタイルの物語に再構成する。
われわれのフレームワークは、最先端のジェイルブレイク手法を一貫して上回り、さらに高度なIntent Analysis(IA)とChain-of-Thought(CoT)ベースの防御を回避している。
論文 参考訳(メタデータ) (2025-05-24T06:47:32Z) - Checkpoint-GCG: Auditing and Attacking Fine-Tuning-Based Prompt Injection Defenses [10.08464073347558]
細調整による防御に対するホワイトボックス攻撃であるCheckpoint-GCGを導入する。
最強防衛に対する攻撃成功率(ASR)を最大96%まで達成できるチェックポイントGCGを示す。
論文 参考訳(メタデータ) (2025-05-21T16:43:17Z) - Decoding FL Defenses: Systemization, Pitfalls, and Remedies [16.907513505608666]
FL(Federated Learning)のディフェンスを評価するためのガイドラインはありません。
FLディフェンスの総合的なシステム化を3次元に沿って設計する。
我々は,トップレベル防衛紙50点を調査し,それらの評価設定でよく使用されるコンポーネントを特定した。
論文 参考訳(メタデータ) (2025-02-03T23:14:02Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。