論文の概要: BingoGuard: LLM Content Moderation Tools with Risk Levels
- arxiv url: http://arxiv.org/abs/2503.06550v1
- Date: Sun, 09 Mar 2025 10:43:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:01.689951
- Title: BingoGuard: LLM Content Moderation Tools with Risk Levels
- Title(参考訳): BingoGuard: リスクレベルを備えたLLMコンテンツモデレーションツール
- Authors: Fan Yin, Philippe Laban, Xiangyu Peng, Yilun Zhou, Yixin Mao, Vaibhav Vats, Linnea Ross, Divyansh Agarwal, Caiming Xiong, Chien-Sheng Wu,
- Abstract要約: 大きな言語モデル(LLM)によって生成された悪意のあるコンテンツは、様々な程度に害を与える可能性がある。
本稿では,11の有害トピックに対するトピックごとの重度ルーブリックを導入し,LLMに基づくモデレーションシステムであるBingoGuardを構築する。
- 参考スコア(独自算出の注目度): 67.53167973090356
- License:
- Abstract: Malicious content generated by large language models (LLMs) can pose varying degrees of harm. Although existing LLM-based moderators can detect harmful content, they struggle to assess risk levels and may miss lower-risk outputs. Accurate risk assessment allows platforms with different safety thresholds to tailor content filtering and rejection. In this paper, we introduce per-topic severity rubrics for 11 harmful topics and build BingoGuard, an LLM-based moderation system designed to predict both binary safety labels and severity levels. To address the lack of annotations on levels of severity, we propose a scalable generate-then-filter framework that first generates responses across different severity levels and then filters out low-quality responses. Using this framework, we create BingoGuardTrain, a training dataset with 54,897 examples covering a variety of topics, response severity, styles, and BingoGuardTest, a test set with 988 examples explicitly labeled based on our severity rubrics that enables fine-grained analysis on model behaviors on different severity levels. Our BingoGuard-8B, trained on BingoGuardTrain, achieves the state-of-the-art performance on several moderation benchmarks, including WildGuardTest and HarmBench, as well as BingoGuardTest, outperforming best public models, WildGuard, by 4.3\%. Our analysis demonstrates that incorporating severity levels into training significantly enhances detection performance and enables the model to effectively gauge the severity of harmful responses.
- Abstract(参考訳): 大きな言語モデル(LLM)によって生成された悪意のあるコンテンツは、様々な程度に害を与える可能性がある。
既存のLSMベースのモデレーターは有害なコンテンツを検出することができるが、リスクレベルを評価するのに苦労し、リスクの低い出力を見逃す可能性がある。
正確なリスク評価により、異なる安全性閾値を持つプラットフォームは、コンテンツのフィルタリングと拒否を調整できる。
本稿では,11の有害トピックに対するトピックごとの重度ルーブリックを導入し,バイナリセーフティラベルと重度レベルの両方を予測できるLLMベースのモデレーションシステムであるBingoGuardを構築する。
重大度レベルのアノテーションの欠如に対処するため、我々はまず様々な重大度レベルの応答を生成し、次に低品質な応答をフィルタリングするスケーラブルな生成列フィルタフレームワークを提案する。
このフレームワークを使用して、さまざまなトピック、応答の深刻度、スタイル、そしてBingoGuardTestを含む54,897のサンプルを持つトレーニングデータセットであるBingoGuardTrainを作成します。
BingoGuardTrainでトレーニングされたBingoGuard-8Bは、WildGuardTestやHarmBenchなど、いくつかのモデレーションベンチマークで最先端のパフォーマンスを実現しています。
本分析は,重症度をトレーニングに組み込むことで検出性能を大幅に向上し,有害反応の重症度を効果的に評価できることを示した。
関連論文リスト
- Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - Class-RAG: Real-Time Content Moderation with Retrieval Augmented Generation [15.298017013140385]
検索拡張生成(Class-RAG)を用いた分類手法を提案する。
モデル微調整と比較すると、クラスRAGは意思決定の柔軟性と透明性を示し、分類に優れ、敵の攻撃に対してより堅牢である。
また,検索ライブラリのサイズによってクラスRAG性能が向上することが示唆され,ライブラリサイズの増加はコンテンツモデレーションを改善するための実用的で低コストなアプローチであることが示唆された。
論文 参考訳(メタデータ) (2024-10-18T22:07:36Z) - HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router [42.222681564769076]
我々はHiddenGuardを紹介した。HiddenGuardは大規模言語モデルにおいて、きめ細かな安全な生成のための新しいフレームワークである。
HiddenGuard には LLM と連携して動作する Prism が組み込まれている。
実験の結果,HiddenGuardはF1スコアの90%以上を達成し,有害なコンテンツを検出・再現することがわかった。
論文 参考訳(メタデータ) (2024-10-03T17:10:41Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - $R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning [8.408258504178718]
既存のガードレールモデルは、様々な安全カテゴリーを独立して扱い、それらの相互関係を明示的に把握することができない。
R2$-Guardは,知識を付加した論理的推論を通した堅牢なLLMガードレールである。
R2$-GuardはSoTAメソッドのLlamaGuardをToxicChatで30.2%、Jailbreak攻撃で59.5%を大きく上回っている。
論文 参考訳(メタデータ) (2024-07-08T02:15:29Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Healing Unsafe Dialogue Responses with Weak Supervision Signals [24.749797310489253]
非教師付き擬似ラベルサンプリング手法であるTEMPは、潜在的な安全な応答を自動的に割り当てる。
TEMP法では,複数のクラスタに応答し,複数のラベルを適応的にシャープなサンプリング戦略でサンプリングする。
chitchatとタスク指向対話の実験では、TEMPは監督信号の弱い最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-25T06:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。