論文の概要: Evaluating the Robustness of Large Language Model Safety Guardrails Against Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2511.22047v1
- Date: Thu, 27 Nov 2025 03:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.36788
- Title: Evaluating the Robustness of Large Language Model Safety Guardrails Against Adversarial Attacks
- Title(参考訳): 大規模言語モデル安全ガードレールの敵攻撃に対するロバスト性評価
- Authors: Richard J. Young,
- Abstract要約: 大言語モデル(LLM)の安全ガードレールモデルは有害なコンテンツ生成に対する主要な防御機構として出現している。
この調査は、21の攻撃カテゴリにわたる1,445のテストプロンプトで、Meta、Google、IBM、NVIDIA、Alibaba、Allen AIから利用可能な10のガードレールモデルを評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) safety guardrail models have emerged as a primary defense mechanism against harmful content generation, yet their robustness against sophisticated adversarial attacks remains poorly characterized. This study evaluated ten publicly available guardrail models from Meta, Google, IBM, NVIDIA, Alibaba, and Allen AI across 1,445 test prompts spanning 21 attack categories. While Qwen3Guard-8B achieved the highest overall accuracy (85.3%, 95% CI: 83.4-87.1%), a critical finding emerged when separating public benchmark prompts from novel attacks: all models showed substantial performance degradation on unseen prompts, with Qwen3Guard dropping from 91.0% to 33.8% (a 57.2 percentage point gap). In contrast, Granite-Guardian-3.2-5B showed the best generalization with only a 6.5% gap. A "helpful mode" jailbreak was also discovered where two guardrail models (Nemotron-Safety-8B, Granite-Guardian-3.2-5B) generated harmful content instead of blocking it, representing a novel failure mode. These findings suggest that benchmark performance may be misleading due to training data contamination, and that generalization ability, not overall accuracy, should be the primary metric for guardrail evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全ガードレールモデルは有害なコンテンツ生成に対する主要な防御機構として登場したが、高度な敵攻撃に対する頑健さはいまだに不十分である。
この調査は、21の攻撃カテゴリにわたる1,445のテストプロンプトで、Meta、Google、IBM、NVIDIA、Alibaba、Allen AIから利用可能な10のガードレールモデルを評価した。
Qwen3Guard-8Bは最高精度(85.3%、95% CI: 83.4-87.1%)を達成したが、新しい攻撃からベンチマークプロンプトを分離する際に重要な発見が見られた: 全てのモデルが目に見えないプロンプトで大幅なパフォーマンス劣化を示し、Qwen3Guardは91.0%から33.8%(57.2%ポイントギャップ)に低下した。
対照的に、グラニト・ガーディアン-3.2-5Bは6.5%のギャップしか持たない最高の一般化を示した。
また、2つのガードレールモデル(ネモトロン・セーフティ-8B、グラニト・ガーディアン-3.2-5B)が、新しい故障モードを象徴する「ヘルパフルモード」のジェイルブレイクが発見された。
これらの結果から, トレーニングデータ汚染によるベンチマーク性能の低下が示唆され, 総合的精度ではなく, 一般化能力がガードレール評価の主要な指標であることが示唆された。
関連論文リスト
- Self-HarmLLM: Can Large Language Model Harm Itself? [10.208363125551555]
我々は、新しい入力と同じモデルで生成されたMHQ(Mitigated Harmful Query)を利用するSelf-HarmLLMシナリオを提案する。
GPT-3.5-turbo, LLaMA3-8B-instruct, and DeepSeek-R1-Distill-Qwen-7B under Base, Zero-shot, Few-shot conditions。
論文 参考訳(メタデータ) (2025-10-31T02:23:54Z) - Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models [0.0]
大規模言語モデル(LLM)は、高度な迅速なエンジニアリング攻撃に対して脆弱なままである。
我々は、物語ベースのジェイルブレイクプロンプトを自動生成するために、コンパクトアタッカーモデルを訓練するための体系的方法論であるジェイルブレイク・ミミミリを紹介する。
我々のアプローチは、敵の迅速な発見を手作業の職人技から再現可能な科学的プロセスに変換する。
論文 参考訳(メタデータ) (2025-10-24T23:53:16Z) - Safeguarding Efficacy in Large Language Models: Evaluating Resistance to Human-Written and Algorithmic Adversarial Prompts [0.0]
本稿では,敵対的攻撃ベクトルに対する大規模言語モデル(LLM)の体系的セキュリティ評価について述べる。
我々はPhi-2, Llama-2-7B-Chat, GPT-3.5-Turbo, GPT-4の4つの異なる攻撃カテゴリ(人書きプロンプト, AutoDAN, Greedy Coordinate Gradient (GCG), Tree-of-Attacks-with-pruning (TAP))を評価した。
論文 参考訳(メタデータ) (2025-10-12T21:48:34Z) - WebGuard: Building a Generalizable Guardrail for Web Agents [59.31116061613742]
WebGuardは、Webエージェントアクションリスクの評価をサポートするために設計された最初のデータセットである。
その中には、22のドメインにわたる193のWebサイトからの4,939の人手によるアノテートアクションが含まれている。
論文 参考訳(メタデータ) (2025-07-18T18:06:27Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring [47.40698758003993]
そこで本研究では,ターゲットブラックボックスモデルのミラーモデルを良質なデータ蒸留により局所的に訓練することにより,悪意あるプロンプト構築を誘導するトランスファー攻撃法を提案する。
提案手法は最大攻撃成功率92%, バランス値80%を達成し, GPT-3.5 Turboに対して平均1.5のジェイルブレイククエリが検出された。
論文 参考訳(メタデータ) (2024-10-28T14:48:05Z) - WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs [54.10865585773691]
LLM安全性のためのオープンで軽量なモデレーションツールであるWildGuardを紹介します。
WildGuardは、ユーザプロンプトにおける悪意のある意図の特定、モデルレスポンスの安全性リスクの検出、モデル拒絶率の決定という3つの目標を達成する。
論文 参考訳(メタデータ) (2024-06-26T16:58:20Z) - Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases [32.2246459413988]
Red-teamingは、モデルの安全行動をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
我々は、安全研究、すなわち、Unalignmentを通してのレッドチームについて、新しい視点を提示する。
統一性はモデルパラメータを調整し、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
論文 参考訳(メタデータ) (2023-10-22T13:55:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。