論文の概要: XGUARD: A Graded Benchmark for Evaluating Safety Failures of Large Language Models on Extremist Content
- arxiv url: http://arxiv.org/abs/2506.00973v1
- Date: Sun, 01 Jun 2025 11:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.696121
- Title: XGUARD: A Graded Benchmark for Evaluating Safety Failures of Large Language Models on Extremist Content
- Title(参考訳): XGUARD:極端コンテンツに基づく大規模言語モデルの安全性障害評価のための段階的ベンチマーク
- Authors: Vadivel Abishethvarman, Bhavik Chandna, Pratik Jalan, Usman Naseem,
- Abstract要約: 我々は,Large Language Models (LLMs) が生成する過激派コンテンツの重大さを評価するためのベンチマークおよび評価フレームワーク XGUARD を提案する。
XGUARDには、ソーシャルメディアやニュースなどの現実世界のデータから得られた3,840のレッド・チーム・プロンプトが含まれており、イデオロギー的なシナリオを幅広くカバーしている。
本フレームワークでは, モデル応答を5つの危険レベル(0~4)に分類し, 故障頻度と重大度の両方をより微妙に分析する。
- 参考スコア(独自算出の注目度): 3.4303348430261202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can generate content spanning ideological rhetoric to explicit instructions for violence. However, existing safety evaluations often rely on simplistic binary labels (safe and unsafe), overlooking the nuanced spectrum of risk these outputs pose. To address this, we present XGUARD, a benchmark and evaluation framework designed to assess the severity of extremist content generated by LLMs. XGUARD includes 3,840 red teaming prompts sourced from real world data such as social media and news, covering a broad range of ideologically charged scenarios. Our framework categorizes model responses into five danger levels (0 to 4), enabling a more nuanced analysis of both the frequency and severity of failures. We introduce the interpretable Attack Severity Curve (ASC) to visualize vulnerabilities and compare defense mechanisms across threat intensities. Using XGUARD, we evaluate six popular LLMs and two lightweight defense strategies, revealing key insights into current safety gaps and trade-offs between robustness and expressive freedom. Our work underscores the value of graded safety metrics for building trustworthy LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、暴力の明示的な指示に比例したイデオロギー的レトリックにまたがる内容を生成することができる。
しかし、既存の安全性評価は、しばしば単純なバイナリラベル(安全で安全でない)に依存し、これらの出力が引き起こすリスクの微妙なスペクトルを見渡す。
そこで本稿では,LLMが生成する過激派コンテンツの重大さを評価するためのベンチマークおよび評価フレームワークであるXGUARDを提案する。
XGUARDには、ソーシャルメディアやニュースなどの現実世界のデータから得られた3,840のレッド・チーム・プロンプトが含まれており、イデオロギー的なシナリオを幅広くカバーしている。
本フレームワークでは, モデル応答を5つの危険レベル(0~4)に分類し, 故障頻度と重大度の両方をより微妙に分析する。
本稿では、脆弱性を可視化し、脅威強度の防衛機構を比較するために、解釈可能なアタック重大曲線(ASC)を導入する。
我々は,XGUARDを用いて,6つのLLMと2つの軽量防衛戦略を評価し,現状の安全性のギャップと,堅牢性と表現の自由のトレードオフに関する重要な知見を明らかにした。
我々の研究は、信頼性の高いLCMを構築するための格付けされた安全性指標の価値を裏付けるものである。
関連論文リスト
- Characterizing and Evaluating the Reliability of LLMs against Jailbreak Attacks [23.782566331783134]
我々は3つのカテゴリ、61の特定の有害なカテゴリからの1525の質問、13の人気のあるLCMの10の最先端のジェイルブレイク戦略に焦点を当てた。
攻撃成功率(ASR)、毒性スコア(Toxicity Score)、Fluency(Fluency)、Token Length(Token Length)、文法エラー(Grammatical Errors)などの多次元指標を用いて、ジェイルブレイク下でのLLMのアウトプットを徹底的に評価する。
モデル,攻撃戦略,有害コンテンツの種類,および評価指標間の相関関係について検討し,多面的評価フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-18T01:58:03Z) - garak: A Framework for Security Probing Large Language Models [16.305837349514505]
garakは、ターゲットとするLarge Language Models(LLM)の脆弱性を発見し、特定するために使用できるフレームワークである。
フレームワークのアウトプットは、ターゲットモデルの弱点を記述し、ユニークなコンテキストで脆弱性を構成するものについての情報的な議論に寄与する。
論文 参考訳(メタデータ) (2024-06-16T18:18:43Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。