論文の概要: Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks
- arxiv url: http://arxiv.org/abs/2601.04603v1
- Date: Thu, 08 Jan 2026 05:16:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.046373
- Title: Constitutional Classifiers++: Efficient Production-Grade Defenses against Universal Jailbreaks
- Title(参考訳): Constitutional Classifiers++:Universal Jailbreakに対する効率的なプロダクショングレード防御
- Authors: Hoagy Cunningham, Jerry Wei, Zihan Wang, Andrew Persic, Alwin Peng, Jordan Abderrachid, Raj Agarwal, Bobby Chen, Austin Cohen, Andy Dau, Alek Dimitriev, Rob Gilson, Logan Howard, Yijin Hua, Jared Kaplan, Jan Leike, Mu Lin, Christopher Liu, Vladimir Mikulik, Rohit Mittapalli, Clare O'Hara, Jin Pan, Nikhil Saxena, Alex Silverstein, Yue Song, Xunjie Yu, Giulio Zhou, Ethan Perez, Mrinank Sharma,
- Abstract要約: 我々は,生産レベルのジェイルブレイクの堅牢性を実現するため,計算コストを劇的に削減し,拒否率を下げる改良された憲法を導入した。
我々の研究は、大規模言語モデルの保護のための憲法上の保護を確立する。
- 参考スコア(独自算出の注目度): 25.497278039073773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce enhanced Constitutional Classifiers that deliver production-grade jailbreak robustness with dramatically reduced computational costs and refusal rates compared to previous-generation defenses. Our system combines several key insights. First, we develop exchange classifiers that evaluate model responses in their full conversational context, which addresses vulnerabilities in last-generation systems that examine outputs in isolation. Second, we implement a two-stage classifier cascade where lightweight classifiers screen all traffic and escalate only suspicious exchanges to more expensive classifiers. Third, we train efficient linear probe classifiers and ensemble them with external classifiers to simultaneously improve robustness and reduce computational costs. Together, these techniques yield a production-grade system achieving a 40x computational cost reduction compared to our baseline exchange classifier, while maintaining a 0.05% refusal rate on production traffic. Through extensive red-teaming comprising over 1,700 hours, we demonstrate strong protection against universal jailbreaks -- no attack on this system successfully elicited responses to all eight target queries comparable in detail to an undefended model. Our work establishes Constitutional Classifiers as practical and efficient safeguards for large language models.
- Abstract(参考訳): 我々は,前世代の防衛よりも計算コストと拒絶率を大幅に削減し,生産レベルのジェイルブレイクの堅牢性を提供する,強化された憲法分類器を導入した。
私たちのシステムには、いくつかの重要な洞察が組み合わさっています。
まず, モデル応答を全会話文脈で評価する交換分類器を開発し, 独立して出力を検査する最終世代のシステムにおける脆弱性に対処する。
第二に、軽量な分類器が全てのトラフィックを遮蔽し、不審な交換だけを高価な分類器にエスカレートする2段階の分類器カスケードを実装した。
第三に、効率的な線形プローブ分類器を訓練し、それらを外部分類器でアンサンブルすることで、ロバスト性の向上と計算コストの削減を図る。
これらの手法を併用すると,生産トラフィックの0.05%の拒絶率を維持しつつ,ベースライン交換分類器に比べて40倍の計算コスト削減を実現した生産レベルのシステムが得られる。
1,700時間を超える広範なレッドチーム構成を通じて、普遍的ジェイルブレイクに対する強力な防御を実証しました -- このシステムに対する攻撃は、修正されていないモデルに匹敵する8つのターゲットクエリに対して、応答をうまく引き出すことができませんでした。
我々の研究は、大規模言語モデルの実用的で効率的な保護手段として、憲法分類器を確立している。
関連論文リスト
- Repulsor: Accelerating Generative Modeling with a Contrastive Memory Bank [65.00301565190824]
mnameは、外部エンコーダを必要としない、プラグアンドプレイのトレーニングフレームワークである。
mnameは400kのステップでtextbf2.40 の最先端 FID を達成し、同等のメソッドを著しく上回っている。
論文 参考訳(メタデータ) (2025-12-09T14:39:26Z) - RoguePrompt: Dual-Layer Ciphering for Self-Reconstruction to Circumvent LLM Moderation [0.0]
本稿では,不正なユーザクエリを自己再構成プロンプトに変換する自動ジェイルブレイク攻撃を提案する。
GPT 4oに対してRoguePromptをインスタンス化し、2 448で評価すると、以前は強く拒否されていた生産モデレーションシステムであることが示唆される。
3つのセキュリティ関連の結果のバイパス、再構築、実行を分離する評価プロトコルの下で、攻撃は84.7%のバイパス、80.2%の再構築、および71.5パーセントの完全な実行を達成した。
論文 参考訳(メタデータ) (2025-11-24T05:42:54Z) - Sentra-Guard: A Multilingual Human-AI Framework for Real-Time Defense Against Adversarial LLM Jailbreaks [0.31984926651189866]
Sentra-Guardは、大規模言語モデル(LLM)のためのリアルタイムモジュールディフェンスシステムである。
このフレームワークは、FAISSにインデックスされたSBERT埋め込み表現とハイブリッドアーキテクチャを使用して、プロンプトの意味をキャプチャする。
直接攻撃ベクトルと難解攻撃ベクトルの両方において、敵のプロンプトを識別する。
論文 参考訳(メタデータ) (2025-10-26T11:19:47Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Jailbreaking Large Language Models Through Content Concretization [1.5599296461516985]
大きな言語モデル(LLM)は、タスクの自動化とコンテンツ生成のためにますます多くデプロイされている。
本稿では,抽象的な悪意ある要求を具体的かつ実行可能な実装に変換する新しいジェイルブレイク技術であるtextitContent Concretization (CC)を紹介する。
論文 参考訳(メタデータ) (2025-09-16T10:34:26Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming [46.634404849618385]
大規模言語モデル(LLM)は、普遍的ジェイルブレイク・プロンプティング戦略に対して脆弱である。
我々は、合成データで訓練された保護と、自然言語規則によるLLMの促進について紹介する。
我々の研究は、実践的な展開可能性を維持しながら、普遍的ジェイルブレイクに対する防御が困難であることを実証している。
論文 参考訳(メタデータ) (2025-01-31T01:09:32Z) - Adversarial Text Purification: A Large Language Model Approach for
Defense [25.041109219049442]
敵の浄化は、敵の攻撃に対して分類器を保護するための防御機構である。
そこで本稿では,大規模言語モデルの生成能力を生かした,新たな逆文清浄法を提案する。
提案手法は,様々な分類器に対して顕著な性能を示し,攻撃時の精度を平均65%以上向上させる。
論文 参考訳(メタデータ) (2024-02-05T02:36:41Z) - Publishing Efficient On-device Models Increases Adversarial
Vulnerability [58.6975494957865]
本稿では,大規模モデルのオンデバイス版を公開する際のセキュリティ上の考慮事項について検討する。
まず、敵がデバイス上のモデルを悪用し、大きなモデルを攻撃しやすくすることを示す。
次に、フルスケールと効率的なモデルとの類似性が増加するにつれて、脆弱性が増加することを示す。
論文 参考訳(メタデータ) (2022-12-28T05:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。