論文の概要: PandaGuard: Systematic Evaluation of LLM Safety in the Era of Jailbreaking Attacks
- arxiv url: http://arxiv.org/abs/2505.13862v1
- Date: Tue, 20 May 2025 03:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.649137
- Title: PandaGuard: Systematic Evaluation of LLM Safety in the Era of Jailbreaking Attacks
- Title(参考訳): PandaGuard: 脱獄事件におけるLLMの安全性の体系的評価
- Authors: Guobin Shen, Dongcheng Zhao, Linghao Feng, Xiang He, Jihang Wang, Sicheng Shen, Haibo Tong, Yiting Dong, Jindong Li, Xiang Zheng, Yi Zeng,
- Abstract要約: 大きな言語モデル(LLM)は目覚ましい能力を達成したが、ジェイルブレイクとして知られる敵のプロンプトに弱いままである。
LLMの安全性研究への取り組みが増えているにもかかわらず、既存の評価はしばしば断片化され、単独の攻撃や防御技術に焦点が当てられている。
PandaGuardはLLMジェイルブレイクの安全性を攻撃者、ディフェンダー、および審査員で構成されるマルチエージェントシステムとしてモデル化する、統一的でモジュール化されたフレームワークである。
- 参考スコア(独自算出の注目度): 7.252454104194306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable capabilities but remain vulnerable to adversarial prompts known as jailbreaks, which can bypass safety alignment and elicit harmful outputs. Despite growing efforts in LLM safety research, existing evaluations are often fragmented, focused on isolated attack or defense techniques, and lack systematic, reproducible analysis. In this work, we introduce PandaGuard, a unified and modular framework that models LLM jailbreak safety as a multi-agent system comprising attackers, defenders, and judges. Our framework implements 19 attack methods and 12 defense mechanisms, along with multiple judgment strategies, all within a flexible plugin architecture supporting diverse LLM interfaces, multiple interaction modes, and configuration-driven experimentation that enhances reproducibility and practical deployment. Built on this framework, we develop PandaBench, a comprehensive benchmark that evaluates the interactions between these attack/defense methods across 49 LLMs and various judgment approaches, requiring over 3 billion tokens to execute. Our extensive evaluation reveals key insights into model vulnerabilities, defense cost-performance trade-offs, and judge consistency. We find that no single defense is optimal across all dimensions and that judge disagreement introduces nontrivial variance in safety assessments. We release the code, configurations, and evaluation results to support transparent and reproducible research in LLM safety.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい能力を達成したが、安全アライメントを回避し有害な出力を誘発する、ジェイルブレイクとして知られる敵のプロンプトに弱いままである。
LLMの安全性研究への取り組みが増えているにもかかわらず、既存の評価はしばしば断片化され、孤立した攻撃や防御技術に焦点が当てられ、体系的で再現可能な分析が欠如している。
本研究では, LLMジェイルブレイクの安全性を攻撃者, ディフェンダー, 審査員で構成されるマルチエージェントシステムとしてモデル化する,統一的でモジュール化されたフレームワークであるPandaGuardを紹介する。
本フレームワークは, 多様なLCMインタフェースをサポートするフレキシブルなプラグインアーキテクチャ, 複数対話モード, 再現性と実用性を高める構成駆動実験において, 攻撃方法19と防御機構12と, 複数判定戦略をそれぞれ実装している。
このフレームワーク上に構築されたPandaBenchは、49 LLMの攻撃/防御メソッドと様々な判断アプローチの相互作用を評価する包括的なベンチマークであり、30億以上のトークンを実行する必要がある。
我々の広範な評価は、モデル脆弱性、防衛コストパフォーマンストレードオフ、および判断整合性に関する重要な洞察を明らかにします。
すべての次元において単一の防御が最適ではないこと、および裁判官の不一致が安全性評価において非自明な分散をもたらすことを発見した。
LLMの安全性に関する透明で再現可能な研究を支援するために、コード、構成、評価結果をリリースする。
関連論文リスト
- Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - $\textit{MMJ-Bench}$: A Comprehensive Study on Jailbreak Attacks and Defenses for Multimodal Large Language Models [11.02754617539271]
我々は,MLLMのジェイルブレイク攻撃と防御技術を評価するための統合パイプラインであるtextitMMJ-Benchを紹介する。
我々は,SoTA MLLMに対する様々な攻撃方法の有効性を評価し,防御機構が防御効果とモデルの有用性に与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-16T00:18:23Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。