論文の概要: Beyond Red-Teaming: Formal Guarantees of LLM Guardrail Classifiers
- arxiv url: http://arxiv.org/abs/2605.10901v1
- Date: Mon, 11 May 2026 17:41:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.043809
- Title: Beyond Red-Teaming: Formal Guarantees of LLM Guardrail Classifiers
- Title(参考訳): レッドチームを超えて: LLMガードレール分類器の正式な保証
- Authors: Nikita Kezins, Urbas Ekka, Pascal Berrang, Luca Arnaboldi,
- Abstract要約: ガードレールは生産言語モデルを有害な行動から保護するが、正式な保証は提供しない。
SVD整列超矩形とガウス混合モデルという2つの領域の構成を提案する。
このフレームワークを、毒性ドメイン上の3つの著者がトレーニングしたガードレールに適用すると、すべての超矩形構成はSATを返す。
GPT-2とLlama-3.1-8Bは、様々な境界で90%と80%の堅牢なカバーを維持しているが、BERTの安全保証は独特な揮発性を証明している。
- 参考スコア(独自算出の注目度): 1.9839136494100942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Guardrail Classifiers defend production language models against harmful behavior, but although results seem promising in testing, they provide no formal guarantees. Providing formal guarantees for such models is hard because "harmful behavior" has no natural specification in a discrete input space: and the standard epsilon-ball properties used in other domains do not carry semantic meaning. We close this gap by shifting verification from the discrete input space to the classifier's pre-activation space, where we define a harmful region as a convex shape enclosing the representations of known harmful prompts. Because the sigmoid classification head is monotonic, certifying the worst-case point is sufficient to certify the entire region, yielding a closed-form soundness proof without approximation in O(d) time. To formally evaluate these classifiers, we propose two constructions of such regions: SVD-aligned hyper-rectangles, which yield exact SAT/UNSAT certificates, and Gaussian Mixture Models, which yield probabilistic certificates over semantically coherent clusters. Applying this framework to three author-trained Guardrail Classifiers on the toxicity domain, every hyper-rectangle configuration returns SAT, exposing verifiable safety holes across all classifiers, despite seemingly high empirical metrics. Probabilistic GMM certificates also expose a divergent structural stability in how these models represent harm. While GPT-2 and Llama-3.1-8B maintain robust coverage of 90% and 80% across varying boundaries, BERT's safety guarantees prove uniquely volatile. This 'coverage collapse' to 55% at the optimal threshold reveals a sparsely populated safety margin in BERT, which only achieves full coverage by adopting an extremely conservative pessimistic threshold. These approaches combined, provide new insights on how effective Guardrail Classifiers really are, beyond traditional red-teaming.
- Abstract(参考訳): ガードレール分類器は有害な振る舞いに対して生産言語モデルを保護するが、テストで結果は有望であるように思われるが、正式な保証は提供しない。
このようなモデルの形式的な保証を提供することは、離散的な入力空間において「有害な振る舞い」が自然な仕様を持たず、他の領域で使われる標準的なエプシロン-ボールの性質は意味論的意味を持たないため、難しい。
離散的な入力空間から分類器の事前活性化空間へ検証をシフトすることで、このギャップを閉じ、有害領域を既知の有害なプロンプトの表現を囲む凸形状として定義する。
シグモイド分類ヘッドは単調であるため、最悪の場合の証明は全領域を認証するのに十分であり、O(d)時間で近似することなく閉形式の音響証明が得られる。
これらの分類器を正式に評価するために, SVD に整合した超矩形, SAT/UNSAT 証明書を正確に生成するガウス混合モデル, セマンティック・コヒーレントクラスタ上で確率的証明を生成するガウス混合モデルという2つの手法を提案する。
このフレームワークを毒性ドメイン上の3つの著者がトレーニングしたガードレール分類器に適用すると、すべての超矩形構成がSATを返す。
確率的GMM証明はまた、これらのモデルが害を表す方法において、異なる構造安定性を公開する。
GPT-2とLlama-3.1-8Bは、様々な境界で90%と80%の堅牢なカバーを維持しているが、BERTの安全保証は独特な揮発性を証明している。
この「被覆崩壊」を最適閾値で55%にすると、BERTの人口密度の低い安全マージンが明らかとなり、非常に保守的な悲観的なしきい値を採用することで、完全にカバーできるのみとなる。
これらのアプローチを組み合わせることで、従来のレッドチームを超えて、ガードレール分類器がいかに効果的かという新たな洞察が得られます。
関連論文リスト
- Uncertainty Quantification for Named Entity Recognition via Full-Sequence and Subsequence Conformal Prediction [0.0]
シーケンスラベルに基づくNERモデルを適応して不確実性を考慮した予測セットを生成するための一般的なフレームワークを提案する。
予測セットは、ユーザが指定した信頼度レベルで正しいラベルを含むことが保証された完全文ラベルの集合である。
論文 参考訳(メタデータ) (2026-01-13T18:00:08Z) - Conformal Prediction Sets with Improved Conditional Coverage using Trust Scores [52.92618442300405]
有限サンプルにおいて、正確に分布のない条件付きカバレッジを達成することは不可能である。
本稿では,最も重要となる範囲を対象とするコンフォメーション予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-17T12:01:56Z) - Certified Robustness against Sparse Adversarial Perturbations via Data Localization [39.883465335244594]
本論では,MNISTデータセットとFashion-MNISTデータセットのスパース攻撃に対する信頼性の高いロバスト性において,この問題の幾何学を自然に組み込んだ単純な分類器であるBox-NNについて述べる。
論文 参考訳(メタデータ) (2024-05-23T05:02:00Z) - PointCert: Point Cloud Classification with Deterministic Certified
Robustness Guarantees [63.85677512968049]
ポイントクラウド分類は、自律運転や拡張現実など、多くのセキュリティクリティカルなアプリケーションにおいて重要なコンポーネントである。
既存の対向点雲に対する認証された防御は、重要な制限を被る。
本稿では,任意の点クラウド分類器を対向点クラウドに対して確実に堅牢に変換できる一般フレームワークであるPointCertを提案する。
論文 参考訳(メタデータ) (2023-03-03T14:32:48Z) - RS-Del: Edit Distance Robustness Certificates for Sequence Classifiers
via Randomized Deletion [23.309600117618025]
離散列分類器のランダム化スムーシングを適用して、編集距離境界の敵に対して確固たるロバスト性を提供する。
私たちの証明は、確立されたNeyman-Pearsonアプローチから逸脱したものです。
一般的なMalConvマルウェア検出モデルに適用すると、スムーシング機構RS-Delは128バイトの編集距離半径で91%の精度を達成できる。
論文 参考訳(メタデータ) (2023-01-31T01:40:26Z) - Confident Sinkhorn Allocation for Pseudo-Labeling [40.883130133661304]
半教師付き学習は、ラベル付きデータへの機械学習の依存を減らす重要なツールである。
本稿では,疑似ラベル作成における不確実性の役割を理論的に研究し,CSA(Confident Sinkhorn Allocation)を提案する。
CSAは、信頼度の高いサンプルのみへの最適な輸送を通して、最高の擬似ラベル割り当てを特定する。
論文 参考訳(メタデータ) (2022-06-13T02:16:26Z) - Getting a-Round Guarantees: Floating-Point Attacks on Certified Robustness [19.380453459873298]
敵の例は、わずかな入力摂動によって機械学習分類器の決定を変更できるため、セキュリティリスクを引き起こす。
これらの保証は、ラウンドエラーを引き起こす浮動小数点表現の制限により無効化可能であることを示す。
この攻撃は、正確な認証保証を持つ線形分類器や、保守的な認証を持つニューラルネットワークに対して実行可能であることを示す。
論文 参考訳(メタデータ) (2022-05-20T13:07:36Z) - Tune it the Right Way: Unsupervised Validation of Domain Adaptation via
Soft Neighborhood Density [125.64297244986552]
本稿では,点間の類似度分布のエントロピーを計算し,ソフト近傍の密度を測定する教師なし検証基準を提案する。
私たちの基準は、競合する検証方法よりもシンプルですが、より効果的です。
論文 参考訳(メタデータ) (2021-08-24T17:41:45Z) - Relaxing Local Robustness [21.40979740283219]
ローカルロバスト性は、敵の存在においても自然な目的ではない。
緩和された各ロバスト性に対して効率よく検証できるモデルを構築する方法を示す。
これらの緩和されたロバスト性変異がいくつかの重要な分類問題によく適合していることを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-11T22:02:03Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。