論文の概要: Ellipsoid Control: A White-list Jailbreak Defense via Benign Latent Modeling
- arxiv url: http://arxiv.org/abs/2605.24552v1
- Date: Sat, 23 May 2026 12:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.236931
- Title: Ellipsoid Control: A White-list Jailbreak Defense via Benign Latent Modeling
- Title(参考訳): Ellipsoid Control: 良性遅延モデリングによるホワイトリストのジェイルブレイク防御
- Authors: Luoyu Chen, Weiqi Wang, Zhiyi Tian, Feng Wu, Ahmed Asiri, Shui Yu,
- Abstract要約: 任意の入力に対してリフレクションを課すテストタイムディフェンスであるEllipsoid Controlを提案する。
安全を継続的に強化し、実用性を向上し、脱獄防御のためのホワイトリストアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 42.39487176776296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representation engineering (RepE) defenses have shown strong robustness against jailbreak attacks on large language models (LLMs). However, these methods fundamentally rely on black-list supervision: they learn jailbreak-to-refusal activation transformations from harmful or jailbreak data that are inherently incomplete and continuously evolving. Hence, the performance of RepE-based defenses becomes tightly coupled to the quality and coverage of collected harmful samples, leaving models vulnerable to unseen attacks. This reliance also obscures the distinction between defenses that fit known harmful distributions and defenses that protect a benign latent region without estimating the harmful distribution. We adopt the opposite, the white-list perspective, by leveraging the accessibility and abundance of benign data. The goal is to elicit refusal on arbitrary inputs while ensuring that harmless inputs are not falsely rejected. This shifts the core research question to: How can we design a robust benign-latent preservation mechanism such that the benign latent distribution remains intact while refusal is elicited? To answer this, we propose Ellipsoid Control, a test-time defense. It performs projected gradient descent that can elicit refusal on arbitrary inputs, aiming to improve defense effectiveness. At the same time, an anisotropic benign-geometry ellipsoid is fitted from abundant benign data to constrain the update to minimize distortion of the benign latent geometry. This tight constraint helps preserve model utility. Across multiple LLMs, jailbreak attacks, benign tasks, and safety-boundary evaluations, Ellipsoid Control consistently enhances safety while better preserving utility, demonstrating the effectiveness of the white-list approach for jailbreak defense
- Abstract(参考訳): 表現工学(RepE)の防衛は、大規模言語モデル(LLM)に対するジェイルブレイク攻撃に対して強い堅牢性を示している。
しかし、これらの手法は基本的にブラックリストの監督に依存しており、本質的に不完全で継続的な進化を続ける有害データやジェイルブレイクデータからジェイルブレイクから拒否へのアクティベーション変換を学ぶ。
したがって、RepEベースの防御性能は、収集された有害サンプルの品質とカバレッジと密結合し、目に見えない攻撃に弱いモデルを残すことになる。
この依存はまた、既知の有害な分布に適合する防衛と、有害な分布を推定することなく良質な潜伏地域を保護する防衛の区別を曖昧にする。
我々は、良質なデータのアクセシビリティと豊富さを活用することによって、逆のホワイトリストの観点を採用する。
目的は、任意の入力を拒否し、無害な入力が誤って拒否されないようにすることである。
頑健な良性ラテント保存機構を設計すれば、良性ラテント分布が無傷のままでありながら、拒絶を誘発できるのか?
そこで本研究では,テスト時間ディフェンスであるEllipsoid Controlを提案する。
射影勾配降下を行い、任意の入力を拒否し、防御効果を向上させる。
同時に、豊富な良性データから異方性良性幾何楕円体を取り付けて、良性潜在幾何学の歪みを最小限に抑える。
この厳密な制約はモデルユーティリティの保存に役立ちます。
複数のLDM、ジェイルブレイク攻撃、良心的タスク、安全境界評価を通じて、エリプソイドコントロールは安全を継続的に向上し、有効性を向上し、ジェイルブレイク防御のためのホワイトリストアプローチの有効性を実証する。
関連論文リスト
- Defending Large Language Models Against Jailbreak Attacks via In-Decoding Safety-Awareness Probing [27.582748494845706]
大規模言語モデル(LLM)は、自然言語タスク全体で印象的なパフォーマンスを達成し、現実のアプリケーションにますますデプロイされている。
大規模な安全確保努力にもかかわらず、最近の研究では、このようなアライメントはしばしば浅く、ジェイルブレイク攻撃に弱いことが示されている。
ジェイルブレイクに成功したとしても、モデルが内部的に、世代毎に遅延した安全関連信号を表示します。
復号中、安全でないコンテンツを早期に検出するために、これらの潜伏安全信号を明示的にサーフェスし、活用する、単純で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2026-01-15T16:09:10Z) - Activation-Guided Local Editing for Jailbreaking Attacks [33.13949817155855]
トークンレベルのジェイルブレイク攻撃は、しばしば不整合または読めない入力を生み出す。
即時攻撃はスケーラビリティに欠けており、手作業や人間の創造性に大きく依存している。
本稿では,これらのアプローチの利点を組み合わせた,簡潔で効果的な2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-01T11:52:24Z) - Jailbreak-Tuning: Models Efficiently Learn Jailbreak Susceptibility [9.430622637895011]
本稿では、オープンウェイトやクローズドファインチューニングAPIを経由したファインチューニングが、セーフガードを破壊した有用なモデルを生成することを実証する。
OpenAI、Google、およびAnthropicモデルはCBRNの支援、サイバー攻撃の実行、その他の犯罪活動の要求に完全に準拠する。
論文 参考訳(メタデータ) (2025-07-15T18:10:29Z) - DETAM: Defending LLMs Against Jailbreak Attacks via Targeted Attention Modification [18.006622965818856]
我々は,LDMのジェイルブレイク攻撃に対する防御能力を向上する,微調整不要な防御手法であるDETAMを紹介する。
具体的には,ジェイルブレイク攻撃に敏感なアテンションヘッドを識別するために,防衛の成功と失敗の間のアテンションスコアの差を分析した。
推論中、攻撃トークンからの干渉を最小限に抑え、ユーザーの中核的な意図を強調するために注意を向ける。
論文 参考訳(メタデータ) (2025-04-18T09:02:12Z) - Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks [23.793583584784685]
大規模言語モデル(LLM)は、システム脆弱性を利用して安全対策を回避し、有害または不適切な出力を誘発するジェイルブレイク攻撃の影響を受ける。
LATPC(Latent-space Adrial Training with Post-aware framework)を紹介する。
LATPCは有害な入力と良性入力を対比することにより安全性に重要な潜伏次元を同定し、ターゲットの拒絶特徴除去攻撃を適応的に構築する。
論文 参考訳(メタデータ) (2025-01-18T02:57:12Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。