論文の概要: Rethinking Jailbreak Detection of Large Vision Language Models with Representational Contrastive Scoring
- arxiv url: http://arxiv.org/abs/2512.12069v1
- Date: Fri, 12 Dec 2025 22:31:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.093363
- Title: Rethinking Jailbreak Detection of Large Vision Language Models with Representational Contrastive Scoring
- Title(参考訳): Representational Contrastive Scoringを用いた大規模視覚言語モデルのジェイルブレイク検出の再考
- Authors: Peichun Hua, Hao Li, Shanghao Shi, Zhiyuan Yu, Ning Zhang,
- Abstract要約: LVLM(Large Vision-Language Models)は、増え続けるマルチモーダル・ジェイルブレイク攻撃に対して脆弱である。
現在の異常検出法は、新しい良性入力を悪意のある入力と混同する傾向があり、信頼性の低いオーバーリジェクションにつながる。
我々は,LVLMの内部表現に最も強力な安全信号が存在するという,重要な洞察に基づくフレームワークであるRepresentational Contrastive Scoring (RCS)を提案する。
- 参考スコア(独自算出の注目度): 13.497048408038935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) are vulnerable to a growing array of multimodal jailbreak attacks, necessitating defenses that are both generalizable to novel threats and efficient for practical deployment. Many current strategies fall short, either targeting specific attack patterns, which limits generalization, or imposing high computational overhead. While lightweight anomaly-detection methods offer a promising direction, we find that their common one-class design tends to confuse novel benign inputs with malicious ones, leading to unreliable over-rejection. To address this, we propose Representational Contrastive Scoring (RCS), a framework built on a key insight: the most potent safety signals reside within the LVLM's own internal representations. Our approach inspects the internal geometry of these representations, learning a lightweight projection to maximally separate benign and malicious inputs in safety-critical layers. This enables a simple yet powerful contrastive score that differentiates true malicious intent from mere novelty. Our instantiations, MCD (Mahalanobis Contrastive Detection) and KCD (K-nearest Contrastive Detection), achieve state-of-the-art performance on a challenging evaluation protocol designed to test generalization to unseen attack types. This work demonstrates that effective jailbreak detection can be achieved by applying simple, interpretable statistical methods to the appropriate internal representations, offering a practical path towards safer LVLM deployment. Our code is available on Github https://github.com/sarendis56/Jailbreak_Detection_RCS.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、新たな脅威に対して一般化可能な防御と実践的展開の効率の両方を必要とするマルチモーダル・ジェイルブレイク攻撃に対して脆弱である。
多くの現在の戦略は不足しており、特定の攻撃パターンをターゲットにしており、一般化を制限するか、高い計算オーバーヘッドを課す。
軽量な異常検出手法は有望な方向を提供するが、それらの一般的な一級設計は、新しい良性入力を悪意のある入力と混同する傾向があり、信頼性の低いオーバーリジェクションをもたらす。
そこで我々は,LVLMの内部表現に最も強力な安全信号が存在するという,重要な洞察に基づくフレームワークであるRepresentational Contrastive Scoring (RCS)を提案する。
提案手法は,これらの表現の内部形状を検査し,安全クリティカルな層における良性および悪質な入力を最大限に分離する軽量な投影法を学習する。
これにより、単純だが強力なコントラストスコアが実現され、これは真の悪意のある意図と単なる新規性とを区別する。
MCD (Mahalanobis Contrastive Detection) と KCD (K-nearest Contrastive Detection) のインスタンス化は, 未知の攻撃タイプに対する一般化をテストするために設計された, 挑戦的な評価プロトコル上で, 最先端の性能を実現する。
本研究は, 簡便かつ解釈可能な統計的手法を適切な内部表現に適用し, より安全なLVLM展開に向けた実践的な経路を提供することにより, 有効なジェイルブレイク検出を実現することを実証する。
私たちのコードはGithub https://github.com/sarendis56/Jailbreak_Detection_RCSで公開されています。
関連論文リスト
- Learning to Detect Unknown Jailbreak Attacks in Large Vision-Language Models [22.796169894587475]
攻撃特化学習からタスク特化学習へ焦点を移すことにより、未知のジェイルブレイク攻撃を正確に検出する一般的なフレームワークを提案する。
実験の結果,AUROCの未知攻撃に対する検出精度は向上し,効率は向上した。
論文 参考訳(メタデータ) (2025-10-17T08:37:45Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Learning to Detect Unknown Jailbreak Attacks in Large Vision-Language Models [22.796169894587475]
攻撃特化学習からタスク特化学習へ焦点を移すことにより、未知のジェイルブレイク攻撃を正確に検出する一般的なフレームワークを提案する。
実験の結果,AUROCの未知攻撃に対する検出精度は向上し,効率は向上した。
論文 参考訳(メタデータ) (2025-08-08T16:13:28Z) - HiddenDetect: Detecting Jailbreak Attacks against Large Vision-Language Models via Monitoring Hidden States [17.601328965546617]
本研究は,LVLMが内的アクティベーションにおける安全性関連信号を本質的にエンコードしているかどうかを考察する。
その結果,LVLMは安全でないプロンプトを処理する際に,異なる活性化パターンを示すことが明らかとなった。
HiddenDetectは、内部モデルのアクティベーションを活用して安全性を高める、新しいチューニング不要のフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T17:14:34Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。