論文の概要: SGuard-v1: Safety Guardrail for Large Language Models
- arxiv url: http://arxiv.org/abs/2511.12497v1
- Date: Sun, 16 Nov 2025 08:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.278951
- Title: SGuard-v1: Safety Guardrail for Large Language Models
- Title(参考訳): SGuard-v1: 大規模言語モデルの安全ガードレール
- Authors: JoonHo Lee, HyeonMin Cho, Jaewoong Yun, Hyunjae Lee, JunKyu Lee, Juree Seok,
- Abstract要約: SGuard-v1は、大規模言語モデル(LLM)のための軽量安全ガードレールである。
それは、人間とAIの会話環境における有害なコンテンツと画面の敵対的プロンプトを検出するための2つの特殊なモデルから構成される。
- 参考スコア(独自算出の注目度): 9.229602223310485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SGuard-v1, a lightweight safety guardrail for Large Language Models (LLMs), which comprises two specialized models to detect harmful content and screen adversarial prompts in human-AI conversational settings. The first component, ContentFilter, is trained to identify safety risks in LLM prompts and responses in accordance with the MLCommons hazard taxonomy, a comprehensive framework for trust and safety assessment of AI. The second component, JailbreakFilter, is trained with a carefully designed curriculum over integrated datasets and findings from prior work on adversarial prompting, covering 60 major attack types while mitigating false-unsafe classification. SGuard-v1 is built on the 2B-parameter Granite-3.3-2B-Instruct model that supports 12 languages. We curate approximately 1.4 million training instances from both collected and synthesized data and perform instruction tuning on the base model, distributing the curated data across the two component according to their designated functions. Through extensive evaluation on public and proprietary safety benchmarks, SGuard-v1 achieves state-of-the-art safety performance while remaining lightweight, thereby reducing deployment overhead. SGuard-v1 also improves interpretability for downstream use by providing multi-class safety predictions and their binary confidence scores. We release the SGuard-v1 under the Apache-2.0 License to enable further research and practical deployment in AI safety.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) の軽量安全ガードレールであるSGuard-v1について述べる。
最初のコンポーネントであるContentFilterは、AIの信頼性と安全性評価のための包括的なフレームワークであるMLCommonsハザード分類に従って、LSMのプロンプトとレスポンスの安全性リスクを特定するために訓練されている。
第2のコンポーネントであるJailbreakFilterは、統合データセットに関する慎重に設計されたカリキュラムでトレーニングされている。
SGuard-v1は、12言語をサポートする2BパラメーターのGranite-3.3-2B-Instructモデル上に構築されている。
収集データと合成データの両方から約140万のトレーニングインスタンスをキュレートし、ベースモデル上で命令チューニングを行い、2つのコンポーネントに指定された関数に従ってキュレートされたデータを分散する。
パブリックおよびプロプライエタリな安全ベンチマークに関する広範な評価を通じて、SGuard-v1は、軽量ながら最先端の安全性能を実現し、デプロイメントオーバーヘッドを低減している。
SGuard-v1は、マルチクラスの安全性予測とバイナリ信頼性スコアを提供することで、ダウンストリーム使用の解釈性も向上する。
私たちはSGuard-v1をApache-2.0ライセンスでリリースし、AI安全性のさらなる研究と実践的な展開を可能にしています。
関連論文リスト
- Sentra-Guard: A Multilingual Human-AI Framework for Real-Time Defense Against Adversarial LLM Jailbreaks [0.31984926651189866]
Sentra-Guardは、大規模言語モデル(LLM)のためのリアルタイムモジュールディフェンスシステムである。
このフレームワークは、FAISSにインデックスされたSBERT埋め込み表現とハイブリッドアーキテクチャを使用して、プロンプトの意味をキャプチャする。
直接攻撃ベクトルと難解攻撃ベクトルの両方において、敵のプロンプトを識別する。
論文 参考訳(メタデータ) (2025-10-26T11:19:47Z) - OpenGuardrails: A Configurable, Unified, and Scalable Guardrails Platform for Large Language Models [3.3252656373741547]
OpenGuardrailsは、大規模なモデルベースの安全性検出、操作防御、デプロイ可能なガードレールインフラストラクチャを統合する、最初の完全なオープンソースプラットフォームです。
OpenGuardrailsは,(1)有害なテキスト生成や明示的なテキスト生成などのコンテンツ安全違反,(2)迅速なインジェクション,ジェイルブレイク,コード・インタプリタの乱用を含むモデル操作攻撃,(3)機密情報や個人情報を含むデータ漏洩,という3つの主要なリスクに対して保護されている。
論文 参考訳(メタデータ) (2025-10-22T02:02:27Z) - Qwen3Guard Technical Report [127.69960525219051]
Qwen3Guardは、多言語安全ガードレールモデルである。
生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。
Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
論文 参考訳(メタデータ) (2025-10-16T04:00:18Z) - HoliSafe: Holistic Safety Benchmarking and Modeling for Vision-Language Model [58.12612140992874]
我々は、安全で安全でない5つの画像テキストの組み合わせにまたがる、全体的な安全データセットとベンチマークである textbfHoliSafeを紹介した。
また,入力画像の有害性を評価するために,視覚ガードモジュール(VGM)を用いて,VLMの安全性を高めるための新しいモジュラーフレームワークを提案する。
実験により、HoliSafeでトレーニングされたVGMを使用したSafe-VLMは、複数のVLMベンチマークで最先端の安全性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z) - LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models [26.148022772521493]
LlavaGuardはVLMベースの視覚保護装置のスイートで、大規模データとモデルの時代における信頼性の高いガードレールの必要性に対処する。
VLMセーフガードの安全性を教えるために,高品質なヒューマンエキスパートアノテーションを用いたマルチモーダル安全データセットを作成する。
0.5Bから7BまでのLlavaGuardモデルは、フレキシブルポリシーに対するビジュアルコンテンツの安全性コンプライアンスを評価する汎用ツールとして機能する。
論文 参考訳(メタデータ) (2024-06-07T17:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。