論文の概要: GuardEval: A Multi-Perspective Benchmark for Evaluating Safety, Fairness, and Robustness in LLM Moderators
- arxiv url: http://arxiv.org/abs/2601.03273v1
- Date: Mon, 22 Dec 2025 14:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.590151
- Title: GuardEval: A Multi-Perspective Benchmark for Evaluating Safety, Fairness, and Robustness in LLM Moderators
- Title(参考訳): GuardEval: LLMモデレータの安全性、公正性、ロバスト性を評価するためのマルチパースペクティブベンチマーク
- Authors: Naseem Machlovi, Maryam Saleki, Ruhul Amin, Mohamed Rahouti, Shawqi Al-Maliki, Junaid Qadir, Mohamed M. Abdallah, Ala Al-Fuqaha,
- Abstract要約: 大規模言語モデル(LLM)のトレーニングと評価のためのベンチマークデータセットであるGuardEvalを提案する。
GuardEvalでトレーニングされたGemma3-12Bの微調整版であるGemmaGuard(GGuard)も紹介し、詳細なラベルでコンテンツモデレーションを評価する。
マルチパースペクティブで人間中心の安全ベンチマークは、偏りと矛盾するモデレーションの決定を減らすために重要であることを示す。
- 参考スコア(独自算出の注目度): 9.212268642636007
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As large language models (LLMs) become deeply embedded in daily life, the urgent need for safer moderation systems, distinguishing between naive from harmful requests while upholding appropriate censorship boundaries, has never been greater. While existing LLMs can detect harmful or unsafe content, they often struggle with nuanced cases such as implicit offensiveness, subtle gender and racial biases, and jailbreak prompts, due to the subjective and context-dependent nature of these issues. Furthermore, their heavy reliance on training data can reinforce societal biases, resulting in inconsistent and ethically problematic outputs. To address these challenges, we introduce GuardEval, a unified multi-perspective benchmark dataset designed for both training and evaluation, containing 106 fine-grained categories spanning human emotions, offensive and hateful language, gender and racial bias, and broader safety concerns. We also present GemmaGuard (GGuard), a QLoRA fine-tuned version of Gemma3-12B trained on GuardEval, to assess content moderation with fine-grained labels. Our evaluation shows that GGuard achieves a macro F1 score of 0.832, substantially outperforming leading moderation models, including OpenAI Moderator (0.64) and Llama Guard (0.61). We show that multi-perspective, human-centered safety benchmarks are critical for reducing biased and inconsistent moderation decisions. GuardEval and GGuard together demonstrate that diverse, representative data materially improve safety, fairness, and robustness on complex, borderline cases.
- Abstract(参考訳): 大規模言語モデル(LLM)が日常生活に深く浸透するにつれて、有害な要求と区別し、適切な検閲境界を保ちながら、より安全なモデレーションシステムの必要性が増すことはなかった。
既存のLSMは有害または不安全な内容を検出することができるが、これらの問題の主観的・文脈に依存した性質のため、暗黙の攻撃性、微妙な性別や人種的偏見、ジェイルブレイクのプロンプトといった曖昧な事件に苦慮することが多い。
さらに、トレーニングデータへの強い依存は、社会的バイアスを強化し、一貫性のない倫理的に問題のあるアウトプットをもたらす。
これらの課題に対処するために、トレーニングと評価の両方のために設計された統合マルチパースペクティブベンチマークデータセットであるGuardEvalを紹介します。
また、GuardEvalでトレーニングされたQLoRA Gemma3-12Bの微調整版である GemmaGuard (GGuard) を紹介し、細粒度ラベルによるコンテンツモデレーションを評価する。
GGuard のマクロ F1 スコアは 0.832 であり,OpenAI Moderator (0.64) や Llama Guard (0.61) など,主要なモデレーションモデルよりもかなり優れていた。
マルチパースペクティブで人間中心の安全ベンチマークは、偏りと矛盾するモデレーションの決定を減らすために重要であることを示す。
GuardEvalとGGuardは共に、多種多様な代表的データが、複雑な境界線のケースにおける安全性、公正性、堅牢性を大幅に改善することを示した。
関連論文リスト
- ProGuard: Towards Proactive Multimodal Safeguard [48.89789547707647]
ProGuardは視覚言語プロアクティブガードであり、アウト・オブ・ディストリビューション(OOD)の安全性リスクを特定し記述する。
まず,2次安全ラベルとリスクカテゴリの両方を付加した87Kサンプルのモダリティバランスデータセットを構築した。
次に、強化学習を通して視覚言語ベースモデルを純粋に訓練し、効率的かつ簡潔な推論を実現する。
論文 参考訳(メタデータ) (2025-12-29T16:13:23Z) - AprielGuard [2.3704817495377526]
既存のツールは、安全性のリスクを別の問題として扱い、堅牢性と一般化性を制限する。
AprielGuardは8Bパラメータ保護モデルで、これらの次元を単一の分類と学習フレームワークに統合する。
AprielGuardは有害なコンテンツの検出と敵の操作において高い性能を達成する。
論文 参考訳(メタデータ) (2025-12-23T12:01:32Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - BingoGuard: LLM Content Moderation Tools with Risk Levels [67.53167973090356]
大きな言語モデル(LLM)によって生成された悪意のあるコンテンツは、様々な程度に害を与える可能性がある。
本稿では,11の有害トピックに対するトピックごとの重度ルーブリックを導入し,LLMに基づくモデレーションシステムであるBingoGuardを構築する。
論文 参考訳(メタデータ) (2025-03-09T10:43:09Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。