論文の概要: WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs
- arxiv url: http://arxiv.org/abs/2406.18495v1
- Date: Wed, 26 Jun 2024 16:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 12:50:18.645830
- Title: WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs
- Title(参考訳): WildGuard: LLMの安全性リスク、脱獄、拒絶のためのオープンワンストップモデレーションツール
- Authors: Seungju Han, Kavel Rao, Allyson Ettinger, Liwei Jiang, Bill Yuchen Lin, Nathan Lambert, Yejin Choi, Nouha Dziri,
- Abstract要約: LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
- 参考スコア(独自算出の注目度): 54.10865585773691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce WildGuard -- an open, light-weight moderation tool for LLM safety that achieves three goals: (1) identifying malicious intent in user prompts, (2) detecting safety risks of model responses, and (3) determining model refusal rate. Together, WildGuard serves the increasing needs for automatic safety moderation and evaluation of LLM interactions, providing a one-stop tool with enhanced accuracy and broad coverage across 13 risk categories. While existing open moderation tools such as Llama-Guard2 score reasonably well in classifying straightforward model interactions, they lag far behind a prompted GPT-4, especially in identifying adversarial jailbreaks and in evaluating models' refusals, a key measure for evaluating safety behaviors in model responses. To address these challenges, we construct WildGuardMix, a large-scale and carefully balanced multi-task safety moderation dataset with 92K labeled examples that cover vanilla (direct) prompts and adversarial jailbreaks, paired with various refusal and compliance responses. WildGuardMix is a combination of WildGuardTrain, the training data of WildGuard, and WildGuardTest, a high-quality human-annotated moderation test set with 5K labeled items covering broad risk scenarios. Through extensive evaluations on WildGuardTest and ten existing public benchmarks, we show that WildGuard establishes state-of-the-art performance in open-source safety moderation across all the three tasks compared to ten strong existing open-source moderation models (e.g., up to 26.4% improvement on refusal detection). Importantly, WildGuard matches and sometimes exceeds GPT-4 performance (e.g., up to 3.9% improvement on prompt harmfulness identification). WildGuard serves as a highly effective safety moderator in an LLM interface, reducing the success rate of jailbreak attacks from 79.8% to 2.4%.
- Abstract(参考訳): 本研究では,LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介し,(1)ユーザプロンプトにおける悪意の識別,(2)モデル応答の安全性リスクの検出,(3)モデル拒絶率の決定という3つの目標を達成する。
WildGuardは、LLMインタラクションの自動安全性調整と評価の必要性を高め、13のリスクカテゴリにまたがる精度と広範なカバレッジを向上したワンストップツールを提供する。
Llama-Guard2のような既存のオープンモデレーションツールは、単純なモデルインタラクションの分類において合理的に優れているが、特に敵のジェイルブレイクを特定し、モデル応答における安全行動を評価するための重要な指標であるモデルの拒絶を評価する際に、GPT-4よりもはるかに遅れている。
これらの課題に対処するため、我々は、Vanilla(直接)プロンプトと敵ジェイルブレイクをカバーする92Kラベルの例を使って、大規模かつ慎重にバランスの取れたマルチタスクセーフティモデレーションデータセットであるWildGuardMixを構築し、さまざまな拒否応答とコンプライアンス応答を組み合わせました。
WildGuardMixは、WildGuardのトレーニングデータであるWildGuardTrainと、幅広いリスクシナリオをカバーする5Kラベルのアイテムを備えた高品質な人間アノテーションによるモデレーションテストセットであるWildGuardTestを組み合わせたものだ。
WildGuardTestと既存の10の公開ベンチマークに関する広範な評価を通じて、WildGuardは、既存の10つの強力なオープンソースモデレーションモデル(例えば、最大26.4%の拒絶検出の改善)と比較して、オープンソースの安全モデレーションにおける最先端のパフォーマンスを3つのタスクすべてにわたって確立していることを示す。
重要な点として、WildGuard は GPT-4 のパフォーマンスを上回り、時には GPT-4 を上回ります。
ワイルドガードはLLMインタフェースの安全性の高いモデレーターとして機能し、ジェイルブレイク攻撃の成功率を79.8%から2.4%に下げている。
関連論文リスト
- PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing [1.474945380093949]
推論時ガードレール(ITG)は、モデルの出力分布をコンプライアンスにシフトするソリューションを提供する。
現在の手法は安全性と利便性のバランスをとるのに苦労している。
構造化制御フローを利用した新しいITG手法であるPrimeGuardを提案する。
論文 参考訳(メタデータ) (2024-07-23T09:14:27Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - $R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning [8.408258504178718]
既存のガードレールモデルは、様々な安全カテゴリーを独立して扱い、それらの相互関係を明示的に把握することができない。
R2$-Guardは,知識を付加した論理的推論を通した堅牢なLLMガードレールである。
R2$-GuardはSoTAメソッドのLlamaGuardをToxicChatで30.2%、Jailbreak攻撃で59.5%を大きく上回っている。
論文 参考訳(メタデータ) (2024-07-08T02:15:29Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.80398992974831]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - JailGuard: A Universal Detection Framework for LLM Prompt-based Attacks [34.95274579737075]
本稿では, LLM と MLLM をまたいだジェイルブレイクおよびハイジャック攻撃の普遍的検出フレームワークである JailGuard を提案する。
JailGuardは、攻撃は本質的に、メソッドやモダリティに関わらず、良心的な攻撃よりも堅牢ではない、という原則に基づいている。
15の既知の攻撃タイプにわたる11,000のデータ項目を含む、最初の総合的なマルチモーダルアタックデータセットを構築します。
論文 参考訳(メタデータ) (2023-12-17T17:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。