論文の概要: NegBLEURT Forest: Leveraging Inconsistencies for Detecting Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2511.11784v1
- Date: Fri, 14 Nov 2025 14:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.309519
- Title: NegBLEURT Forest: Leveraging Inconsistencies for Detecting Jailbreak Attacks
- Title(参考訳): NegBLEURTフォレスト:脱獄攻撃を検知する不整合を活用
- Authors: Lama Sleem, Jerome Francois, Lujun Li, Nathan Foucher, Niccolo Gentile, Radu State,
- Abstract要約: 安全メカニズムをバイパスするために設計された脱獄攻撃は、倫理的ガイドラインに従っているにもかかわらず、LLMに有害または不適切なコンテンツを生成するよう促すことで深刻な脅威となる。
この研究は、成功と失敗の間のセマンティックな一貫性分析を導入し、否定を意識したスコアリングアプローチが意味のあるパターンをキャプチャすることを示した。
NegBLEURT Forestと呼ばれる新しい検出フレームワークが提案され、敵のプロンプトによって引き起こされる出力と期待される安全行動の間のアライメントの程度を評価する。
アイソレーションフォレストアルゴリズムを用いて異常応答を特定し、信頼性の高いジェイルブレイク検出を可能にする。
- 参考スコア(独自算出の注目度): 8.416892421891761
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Jailbreak attacks designed to bypass safety mechanisms pose a serious threat by prompting LLMs to generate harmful or inappropriate content, despite alignment with ethical guidelines. Crafting universal filtering rules remains difficult due to their inherent dependence on specific contexts. To address these challenges without relying on threshold calibration or model fine-tuning, this work introduces a semantic consistency analysis between successful and unsuccessful responses, demonstrating that a negation-aware scoring approach captures meaningful patterns. Building on this insight, a novel detection framework called NegBLEURT Forest is proposed to evaluate the degree of alignment between outputs elicited by adversarial prompts and expected safe behaviors. It identifies anomalous responses using the Isolation Forest algorithm, enabling reliable jailbreak detection. Experimental results show that the proposed method consistently achieves top-tier performance, ranking first or second in accuracy across diverse models using the crafted dataset, while competing approaches exhibit notable sensitivity to model and data variations.
- Abstract(参考訳): 安全メカニズムをバイパスするために設計された脱獄攻撃は、倫理的ガイドラインに従っているにもかかわらず、LLMに有害または不適切なコンテンツを生成するよう促すことで深刻な脅威となる。
普遍的なフィルタリングルールの作成は、特定のコンテキストに依存しているため、依然として困難である。
しきい値のキャリブレーションやモデル微調整に頼ることなく、これらの課題に対処するために、この研究では、成功と失敗の間のセマンティック一貫性解析を導入し、否定を意識したスコアリングアプローチが意味のあるパターンを捉えることを示した。
この知見に基づいて、NegBLEURT Forestと呼ばれる新しい検出フレームワークが提案され、敵のプロンプトによって引き起こされる出力と期待される安全行動の間のアライメントの程度を評価する。
アイソレーションフォレストアルゴリズムを用いて異常応答を特定し、信頼性の高いジェイルブレイク検出を可能にする。
実験結果から,提案手法は多種多様なモデルにまたがる最上位性能を連続的に達成し,その精度を第1級,第2級の精度で評価する一方,競合する手法はモデルやデータの変動に対して顕著な感度を示すことがわかった。
関連論文リスト
- Toward Safer Diffusion Language Models: Discovery and Mitigation of Priming Vulnerability [5.650647159993238]
拡散言語モデル (DLMs) は反復的 denoising を通じてトークンを並列に生成する。
本稿では, DLM が反復的 denoising プロセスから生じる致命的な脆弱性を明らかにする。
汚染された中間状態から安全な応答を生成するためにモデルを訓練するDLMに適した新しい安全アライメント手法を提案する。
論文 参考訳(メタデータ) (2025-10-01T06:35:23Z) - On the Adversarial Robustness of Learning-based Conformal Novelty Detection [10.58528988397402]
AdaDetect を用いた共形ノベルティ検出の対角的ロバスト性について検討した。
以上の結果から,高い検出力を維持しながらFDRを著しく増大させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-10-01T03:29:11Z) - Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize [30.448801772258644]
大きな言語モデル(LLM)は有害な命令に従うことができ、その優れた能力にもかかわらず深刻な安全上の懸念を生じさせる。
近年の研究は、LLMの内部表現における悪意と良性入力の分離性の研究に、探索に基づくアプローチを活用している。
その結果,調査者は意味的有害性よりも表面的なパターンを学習する,という仮説が得られた。
論文 参考訳(メタデータ) (2025-09-04T05:15:55Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - FADEL: Uncertainty-aware Fake Audio Detection with Evidential Deep Learning [9.960675988638805]
顕在学習を用いた偽音声検出(FADEL)という新しいフレームワークを提案する。
FADELはモデルの不確実性を予測に組み込んでおり、OODシナリオではより堅牢なパフォーマンスを実現している。
本研究では,異なるスプーフィングアルゴリズム間の平均不確かさと等誤差率(EER)の強い相関関係を解析し,不確かさ推定の有効性を示す。
論文 参考訳(メタデータ) (2025-04-22T07:40:35Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。