論文の概要: PandaGuard: Systematic Evaluation of LLM Safety against Jailbreaking Attacks
- arxiv url: http://arxiv.org/abs/2505.13862v3
- Date: Mon, 26 May 2025 15:25:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:55.24527
- Title: PandaGuard: Systematic Evaluation of LLM Safety against Jailbreaking Attacks
- Title(参考訳): PandaGuard: LLMによる脱獄攻撃に対する安全性の体系的評価
- Authors: Guobin Shen, Dongcheng Zhao, Linghao Feng, Xiang He, Jihang Wang, Sicheng Shen, Haibo Tong, Yiting Dong, Jindong Li, Xiang Zheng, Yi Zeng,
- Abstract要約: 大きな言語モデル(LLM)は目覚ましい能力を達成したが、ジェイルブレイクとして知られる敵のプロンプトに弱いままである。
LLMの安全性研究への取り組みが増えているにもかかわらず、既存の評価はしばしば断片化され、単独の攻撃や防御技術に焦点が当てられている。
PandaGuardはLLMジェイルブレイクの安全性を攻撃者、ディフェンダー、および審査員で構成されるマルチエージェントシステムとしてモデル化する、統一的でモジュール化されたフレームワークである。
- 参考スコア(独自算出の注目度): 7.252454104194306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable capabilities but remain vulnerable to adversarial prompts known as jailbreaks, which can bypass safety alignment and elicit harmful outputs. Despite growing efforts in LLM safety research, existing evaluations are often fragmented, focused on isolated attack or defense techniques, and lack systematic, reproducible analysis. In this work, we introduce PandaGuard, a unified and modular framework that models LLM jailbreak safety as a multi-agent system comprising attackers, defenders, and judges. Our framework implements 19 attack methods and 12 defense mechanisms, along with multiple judgment strategies, all within a flexible plugin architecture supporting diverse LLM interfaces, multiple interaction modes, and configuration-driven experimentation that enhances reproducibility and practical deployment. Built on this framework, we develop PandaBench, a comprehensive benchmark that evaluates the interactions between these attack/defense methods across 49 LLMs and various judgment approaches, requiring over 3 billion tokens to execute. Our extensive evaluation reveals key insights into model vulnerabilities, defense cost-performance trade-offs, and judge consistency. We find that no single defense is optimal across all dimensions and that judge disagreement introduces nontrivial variance in safety assessments. We release the code, configurations, and evaluation results to support transparent and reproducible research in LLM safety.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい能力を達成したが、安全アライメントを回避し有害な出力を誘発する、ジェイルブレイクとして知られる敵のプロンプトに弱いままである。
LLMの安全性研究への取り組みが増えているにもかかわらず、既存の評価はしばしば断片化され、孤立した攻撃や防御技術に焦点が当てられ、体系的で再現可能な分析が欠如している。
本研究では, LLMジェイルブレイクの安全性を攻撃者, ディフェンダー, 審査員で構成されるマルチエージェントシステムとしてモデル化する,統一的でモジュール化されたフレームワークであるPandaGuardを紹介する。
本フレームワークは, 多様なLCMインタフェースをサポートするフレキシブルなプラグインアーキテクチャ, 複数対話モード, 再現性と実用性を高める構成駆動実験において, 攻撃方法19と防御機構12と, 複数判定戦略をそれぞれ実装している。
このフレームワーク上に構築されたPandaBenchは、49 LLMの攻撃/防御メソッドと様々な判断アプローチの相互作用を評価する包括的なベンチマークであり、30億以上のトークンを実行する必要がある。
我々の広範な評価は、モデル脆弱性、防衛コストパフォーマンストレードオフ、および判断整合性に関する重要な洞察を明らかにします。
すべての次元において単一の防御が最適ではないこと、および裁判官の不一致が安全性評価において非自明な分散をもたらすことを発見した。
LLMの安全性に関する透明で再現可能な研究を支援するために、コード、構成、評価結果をリリースする。
関連論文リスト
- GuardVal: Dynamic Large Language Model Jailbreak Evaluation for Comprehensive Safety Testing [13.267217024192535]
大規模言語モデル(LLMs)におけるジェイルブレイク攻撃の重大な脆弱性
本稿では,保護者LSMの状態に基づいてジェイルブレイクプロンプトを生成・改善する新しい評価プロトコルであるGuardValを紹介する。
このプロトコルを10の安全領域にわたるMistral-7bからGPT-4まで多様なモデルに適用する。
論文 参考訳(メタデータ) (2025-07-10T13:15:20Z) - CAVGAN: Unifying Jailbreak and Defense of LLMs via Generative Adversarial Attacks on their Internal Representations [9.952498288063532]
セキュリティアライメントにより、Large Language Model(LLM)は悪意のあるクエリに対する保護を得ることができる。
LLMのセキュリティ保護機構を解析し,攻撃と防御を組み合わせた枠組みを提案する。
本手法は, LLM中間層埋め込みの線形分離性, およびジェイルブレイク攻撃の本質に基づく。
論文 参考訳(メタデータ) (2025-07-08T14:45:21Z) - Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - You Can't Eat Your Cake and Have It Too: The Performance Degradation of LLMs with Jailbreak Defense [34.023473699165315]
脱獄防御戦略によるLCMの実用性低下, 安全性向上, 過大に安全なエスカレーションについて検討した。
主流のジェイルブレイク防御は、安全性とパフォーマンスの両方を同時に確保できないことに気付きました。
論文 参考訳(メタデータ) (2025-01-21T15:24:29Z) - Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey [50.031628043029244]
マルチモーダル生成モデルは、ビルトインの安全機構をバイパスし、潜在的に有害なコンテンツの生成を誘導できる、ジェイルブレイク攻撃の影響を受けやすい。
本稿では,マルチモーダル生成モデルに特有の攻撃方法,防御機構,評価フレームワークの詳細な分類について述べる。
論文 参考訳(メタデータ) (2024-11-14T07:51:51Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - $\textit{MMJ-Bench}$: A Comprehensive Study on Jailbreak Attacks and Defenses for Multimodal Large Language Models [11.02754617539271]
我々は,MLLMのジェイルブレイク攻撃と防御技術を評価するための統合パイプラインであるtextitMMJ-Benchを紹介する。
我々は,SoTA MLLMに対する様々な攻撃方法の有効性を評価し,防御機構が防御効果とモデルの有用性に与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-16T00:18:23Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。