論文の概要: GLiGuard: Schema-Conditioned Classification for LLM Safeguard
- arxiv url: http://arxiv.org/abs/2605.07982v1
- Date: Fri, 08 May 2026 16:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.20944
- Title: GLiGuard: Schema-Conditioned Classification for LLM Safeguard
- Title(参考訳): GLiGuard: LLM セーフガードのスキーマコンディション分類
- Authors: Urchade Zaratiana, Mary Newhauser, George Hurn-Maloney, Ash Lewis,
- Abstract要約: LLMコンテンツのモデレーションにGLiNER2を応用した双方向エンコーダである textbfGLiGuard を導入する。
キーとなるアイデアは、タスク定義とラベルのセマンティクスを直接、構造化トークンスキーマとして入力シーケンスにエンコードすることだ。
GLiGuardは、23-90$times$小さながら、7B--27Bデコーダベースのガードと競合するF1スコアを達成した。
- 参考スコア(独自算出の注目度): 5.918280835312565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring safe, policy-compliant outputs from large language models requires real-time content moderation that can scale across multiple safety dimensions. However, state-of-the-art guardrail models rely on autoregressive decoders with 7B--27B parameters, reformulating what is fundamentally a classification problem as sequential text generation, a design choice that incurs high latency and scales poorly to multi-aspect evaluation. In this work, we introduce \textbf{GLiGuard}, a 0.3B-parameter schema-conditioned bidirectional encoder adapted from GLiNER2 for LLM content moderation. The key idea is to encode task definitions and label semantics directly into the input sequence as structured token schemas, enabling simultaneous evaluation of prompt safety, response safety, refusal detection, 14 fine-grained harm categories, and 11 jailbreak strategies in a single non-autoregressive forward pass. This schema-conditioned design lets supported task and label blocks be composed directly in the input schema at inference time. Across nine established safety benchmarks, GLiGuard achieves F1 scores competitive with 7B--27B decoder-based guards despite being 23--90$\times$ smaller, while delivering up to 16$\times$ higher throughput and 17$\times$ lower latency. These results suggest that compact bidirectional encoders can approach the accuracy of much larger guard models while drastically reducing inference cost. Code and models are available at https://github.com/fastino-ai/GLiGuard.
- Abstract(参考訳): 大規模言語モデルからの安全でポリシーに準拠したアウトプットを保証するには、複数の安全性次元にわたってスケール可能なリアルタイムコンテンツモデレーションが必要である。
しかし、最先端のガードレールモデルは、7B--27Bパラメータを持つ自己回帰デコーダに依存しており、シーケンシャルテキスト生成の分類問題であり、高いレイテンシを発生させ、マルチアスペクト評価に乏しい設計選択である。
本稿では,GLiNER2 を用いた 0.3B パラメトリックスキーマ条件の双方向エンコーダである \textbf{GLiGuard} について述べる。
キーとなるアイデアは、タスク定義とラベルのセマンティクスを直接、構造化されたトークンスキーマとして入力シーケンスにエンコードし、迅速な安全性、応答安全性、拒否検出、14のきめ細かいハーモカテゴリ、11のジェイルブレイク戦略を単一の非自己回帰フォワードパスで同時に評価できるようにすることである。
このスキーマ条件の設計により、サポートされたタスクとラベルブロックは、推論時に入力スキーマで直接構成できる。
9つの確立された安全性ベンチマークの中で、GLiGuardは、23-90$\times$より小さく、最大16$\times$高スループットと17$\times$低レイテンシの7B--27Bデコーダベースのガードと競合するF1スコアを達成した。
これらの結果から,コンパクトな双方向エンコーダは推定コストを大幅に削減しつつ,より大規模なガードモデルの精度にアプローチ可能であることが示唆された。
コードとモデルはhttps://github.com/fastino-ai/GLiGuard.comで入手できる。
関連論文リスト
- Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - DeepGuard: Secure Code Generation via Multi-Layer Semantic Aggregation [22.14448091276763]
セキュリティ強化のための一般的な戦略は、最終変圧器層から派生した監督を用いてモデルを微調整することである。
この設計は最終レイヤのボトルネックに悩まされる可能性がある。脆弱性を識別するキューは層に分散することができ、次のトーケン予測に最適化された出力表現の近くでは検出されにくくなる。
DeepGuardは、アテンションベースのモジュールを通じて複数の上位層から表現を集約することで、分散セキュリティ関連キューを活用するフレームワークである。
論文 参考訳(メタデータ) (2026-04-10T08:19:48Z) - Guardian-as-an-Advisor: Advancing Next-Generation Guardian Models for Trustworthy LLMs [70.81495077853673]
ハードゲートのセーフティチェッカーは、しばしばベンダーのモデル仕様に過度に反抗し、不平を言う。
この研究は、ガーディアン・アズ・ア・アドバイザ(GaaA)というソフトゲーティングパイプラインを導入し、保護者がバイナリリスクラベルを予測し、このアドバイスを元のクエリに再推論する。
全体として、GaaAはモデル仕様に従うようモデルに指示し、過度な拒絶を減らしながら安全性を維持している。
論文 参考訳(メタデータ) (2026-04-08T23:47:29Z) - Super Suffixes: Bypassing Text Generation Alignment and Guard Models Simultaneously [1.2972852925029712]
大規模言語モデル(LLM)はテキスト入力の処理や実行可能なコード生成にますます利用されている。
LLMはテキスト入力の処理や実行可能コードの生成にますます使われています。
いくつかの企業がガードモデルを導入しており、テキスト生成モデルが敵または悪意のある入力から保護されるように設計された、より小型で特殊なモデルである。
論文 参考訳(メタデータ) (2025-12-12T18:52:09Z) - Qwen3Guard Technical Report [127.69960525219051]
Qwen3Guardは、多言語安全ガードレールモデルである。
生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。
Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
論文 参考訳(メタデータ) (2025-10-16T04:00:18Z) - Sequential Diffusion Language Models [110.06562906987052]
拡散言語モデル(DLM)は理論効率が強いが、固定長の復号化とキー値キャッシュとの非互換性によって制限される。
次点と次点の予測を統一するNext Sequence Prediction (NSP)を導入する。
本稿では,事前学習した自己回帰言語モデル(ALM)を最小限のコストで再現可能な逐次拡散言語モデル(SDLM)を提案する。
論文 参考訳(メタデータ) (2025-09-28T17:59:15Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models [20.42976162135529]
大規模言語モデル(LLM)は、仮想アシスタント、自動コード生成、科学研究など、さまざまな領域で広く使われている。
我々は,与えられた安全対応LLMの安全トリガトークンを識別し,明示的に復号する,シンプルで効果的な防衛アルゴリズムであるtextttD-STT を提案する。
論文 参考訳(メタデータ) (2025-05-12T01:26:50Z) - $R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning [8.408258504178718]
既存のガードレールモデルは、様々な安全カテゴリーを独立して扱い、それらの相互関係を明示的に把握することができない。
R2$-Guardは,知識を付加した論理的推論を通した堅牢なLLMガードレールである。
R2$-GuardはSoTAメソッドのLlamaGuardをToxicChatで30.2%、Jailbreak攻撃で59.5%を大きく上回っている。
論文 参考訳(メタデータ) (2024-07-08T02:15:29Z) - Robust Encodings: A Framework for Combating Adversarial Typos [85.70270979772388]
NLPシステムは入力の小さな摂動によって容易に騙される。
このような混乱に対して防御するための既存の手順は、最悪の場合の攻撃に対して確実な堅牢性を提供する。
モデルアーキテクチャに妥協を加えることなく、ロバスト性を保証するロブエン(RobEn)を導入します。
論文 参考訳(メタデータ) (2020-05-04T01:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。