論文の概要: Benchmarking Open-Source Safety Guard Models: A Comprehensive Evaluation
- arxiv url: http://arxiv.org/abs/2605.28830v1
- Date: Fri, 10 Apr 2026 06:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.545339
- Title: Benchmarking Open-Source Safety Guard Models: A Comprehensive Evaluation
- Title(参考訳): オープンソース安全ガードモデルのベンチマーク: 総合的な評価
- Authors: Reetu Raj Harsh, Bhaskarjit Sarmah, Stefano Pasquali,
- Abstract要約: NIST AI Risk Frameworkの安全性カテゴリ8つにまたがる79,331のサンプルをキュレートしたベンチマークで、14のオープンソース安全ガードモデルを評価した。
有害なコンテンツ不足は偽陽性よりもリスクが高いため、リコールが安全アプリケーションにとって重要な指標であることに気付きました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As Large Language Models (LLMs) are increasingly deployed in safety-critical applications, robust content moderation becomes essential. We present a comprehensive evaluation of 14 open-source safety guard models on a curated benchmark of 79,331 samples spanning 8 NIST AI Risk Framework safety categories. Our benchmark aggregates four diverse datasets (HarmBench, StrongREJECT, RealToxicityPrompts, and BeaverTails), filtered to focus exclusively on safety-relevant content (violence, hate speech, harassment, sexual content, suicide/self-harm, profanity, threats, and health misinformation). We find that recall is the critical metric for safety applications, as missing harmful content poses greater risk than false positives. Our evaluation reveals surprising results: Qwen Guard (4B parameters) achieves the highest recall (83.97%) while larger models like Llama Guard (12B) and GPT-OSS Safeguard (20B) exhibit conservative behavior, missing up to 75% of unsafe content. We demonstrate that model size does not correlate with safety detection performance and that general-purpose guard models outperform specialized ones. These findings provide practical guidance for selecting safety guard models in production deployments.
- Abstract(参考訳): 大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされているため、堅牢なコンテンツモデレーションが不可欠である。
NIST AI Risk Frameworkの安全性カテゴリ8つにまたがる79,331のサンプルをキュレートしたベンチマークで、14のオープンソース安全ガードモデルの総合評価を行った。
私たちのベンチマークでは、HarmBench、StrongREJECT、RealToxicityPrompts、BeaverTailsの4つの多様なデータセットを集約し、安全関連コンテンツ(暴力、ヘイトスピーチ、ハラスメント、性的コンテンツ、自殺/自傷、暴言、脅迫、健康上の誤報)にのみ焦点を絞っている。
有害なコンテンツ不足は偽陽性よりもリスクが高いため、リコールが安全アプリケーションにとって重要な指標であることに気付きました。
Qwen Guard (4Bパラメータ) が最も高いリコール(83.97%)を達成し、Llama Guard (12B) や GPT-OSS Safeguard (20B) のような大型モデルは、安全でないコンテンツの75%を欠いている。
モデルサイズが安全性検出性能と相関しないことを示すとともに,汎用ガードモデルの方が優れた性能を示す。
これらの知見は,製品展開における安全ガードモデルの選択のための実践的ガイダンスを提供する。
関連論文リスト
- SABER: Benchmarking Operational Safety of LLM Coding Agents in Stateful Project Workspaces [18.650640826228862]
SABERは、大規模言語モデルにおける環境に配慮した運用安全性のベンチマークである。
リアルなエージェントスタイルのプロジェクトにモデルを配置し、一連のアクションの後に最終環境状態から安全性を評価する。
評価の結果, 最高性能モデルでさえ, 54%以上の有害な安全違反率を有することが明らかとなった。
論文 参考訳(メタデータ) (2026-05-31T16:06:02Z) - Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model [50.29667251847595]
モデルサイズが大きく,安全性が向上しているにもかかわらず,教師と生徒の言語モデルの間にはアライメントギャップがあることが示される。
本稿では,不安全な動作を潜在空間のベースLLMに還元するBoNサンプリング手法を提案する。
特に7つの教師モデルと6つの生徒モデルが異なるクラスとサイズで、平均攻撃成功率(ASR)はDANで28.2%、WildJailbreakで31.3%、StrongREJECTベンチマークで35.4%低下した。
論文 参考訳(メタデータ) (2026-04-01T02:42:41Z) - ProGuard: Towards Proactive Multimodal Safeguard [48.89789547707647]
ProGuardは視覚言語プロアクティブガードであり、アウト・オブ・ディストリビューション(OOD)の安全性リスクを特定し記述する。
まず,2次安全ラベルとリスクカテゴリの両方を付加した87Kサンプルのモダリティバランスデータセットを構築した。
次に、強化学習を通して視覚言語ベースモデルを純粋に訓練し、効率的かつ簡潔な推論を実現する。
論文 参考訳(メタデータ) (2025-12-29T16:13:23Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - Safety Pretraining: Toward the Next Generation of Safe AI [68.99129474671282]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。
我々のフレームワークは、セーフティフィルタリング、セーフティリフレージング、Native Refusal、Harmfulness-Tag Annotated Pretrainingの4つの重要なステップで構成されています。
我々の安全事前訓練モデルでは、一般的な劣化タスクのパフォーマンスを伴わない標準LLM安全性ベンチマークにおいて、攻撃成功率を38.8%から8.4%に下げている。
論文 参考訳(メタデータ) (2025-04-23T17:58:08Z) - On the Role of Attention Heads in Large Language Model Safety [64.51534137177491]
大規模言語モデル(LLM)は、複数の言語タスクにおいて最先端のパフォーマンスを達成するが、それらの安全ガードレールを回避できる。
モデル安全への個人的貢献を評価するため,マルチヘッド対応のための新しい指標として,安全ヘッドImPortant Score(Ships)を提案する。
論文 参考訳(メタデータ) (2024-10-17T16:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。