論文の概要: SoK: Evaluating Jailbreak Guardrails for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.10597v1
- Date: Thu, 12 Jun 2025 11:42:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.705189
- Title: SoK: Evaluating Jailbreak Guardrails for Large Language Models
- Title(参考訳): SoK: 大規模言語モデルのための脱獄ガードレールの評価
- Authors: Xunguang Wang, Zhenlan Ji, Wenxuan Wang, Zongjie Li, Daoyuan Wu, Shuai Wang,
- Abstract要約: 大きな言語モデル(LLM)は目覚ましい進歩を遂げているが、そのデプロイメントは重大な脆弱性を露呈している。
LLMのインタラクションを監視し、制御する外部防衛機構であるガードレールが、将来性のあるソリューションとして登場した。
LLM用脱線ガードレールの総括解析を行った。
- 参考スコア(独自算出の注目度): 29.82176024701988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable progress, but their deployment has exposed critical vulnerabilities, particularly to jailbreak attacks that circumvent safety mechanisms. Guardrails--external defense mechanisms that monitor and control LLM interaction--have emerged as a promising solution. However, the current landscape of LLM guardrails is fragmented, lacking a unified taxonomy and comprehensive evaluation framework. In this Systematization of Knowledge (SoK) paper, we present the first holistic analysis of jailbreak guardrails for LLMs. We propose a novel, multi-dimensional taxonomy that categorizes guardrails along six key dimensions, and introduce a Security-Efficiency-Utility evaluation framework to assess their practical effectiveness. Through extensive analysis and experiments, we identify the strengths and limitations of existing guardrail approaches, explore their universality across attack types, and provide insights into optimizing defense combinations. Our work offers a structured foundation for future research and development, aiming to guide the principled advancement and deployment of robust LLM guardrails. The code is available at https://github.com/xunguangwang/SoK4JailbreakGuardrails.
- Abstract(参考訳): 大きな言語モデル(LLM)は目覚ましい進歩を遂げているが、そのデプロイメントは、特に安全メカニズムを回避するジェイルブレイク攻撃に重大な脆弱性を露呈している。
LLMのインタラクションを監視し、制御する外部防衛機構であるガードレールが、将来性のあるソリューションとして登場した。
しかし、LLMガードレールの現在の状況は断片化されており、統一された分類学と総合的な評価フレームワークが欠如している。
本稿では,LLMにおけるジェイルブレイクガードレールの総合的解析について述べる。
本稿では,6つの重要な側面に沿ってガードレールを分類する新しい多次元分類法を提案し,その実用性を評価するためのセキュリティ・効率・ユーティリティ評価フレームワークを提案する。
広範囲な分析と実験を通じて、既存のガードレールアプローチの強みと限界を特定し、攻撃タイプ間の普遍性を探求し、防御の組み合わせを最適化するための洞察を提供する。
我々の研究は将来の研究・開発のための構造的基盤を提供し、ロバストLLMガードレールの原則的進歩と展開を導くことを目的としている。
コードはhttps://github.com/xunguangwang/SoK4JailbreakGuardrailsで公開されている。
関連論文リスト
- Exploring the Vulnerability of the Content Moderation Guardrail in Large Language Models via Intent Manipulation [18.37303422539757]
本研究では,意図認識型ガードレールの脆弱性を調査し,大規模言語モデルが暗黙の意図検出能力を示すことを示す。
IntentPromptという2段階のインテントベースのプロンプトリファインメントフレームワークを提案し、まず有害な問い合わせを構造化されたアウトラインに変換し、さらに宣言的なスタイルの物語に再構成する。
われわれのフレームワークは、最先端のジェイルブレイク手法を一貫して上回り、さらに高度なIntent Analysis(IA)とChain-of-Thought(CoT)ベースの防御を回避している。
論文 参考訳(メタデータ) (2025-05-24T06:47:32Z) - PandaGuard: Systematic Evaluation of LLM Safety against Jailbreaking Attacks [7.252454104194306]
大きな言語モデル(LLM)は目覚ましい能力を達成したが、ジェイルブレイクとして知られる敵のプロンプトに弱いままである。
LLMの安全性研究への取り組みが増えているにもかかわらず、既存の評価はしばしば断片化され、単独の攻撃や防御技術に焦点が当てられている。
PandaGuardはLLMジェイルブレイクの安全性を攻撃者、ディフェンダー、および審査員で構成されるマルチエージェントシステムとしてモデル化する、統一的でモジュール化されたフレームワークである。
論文 参考訳(メタデータ) (2025-05-20T03:14:57Z) - Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - $\textit{MMJ-Bench}$: A Comprehensive Study on Jailbreak Attacks and Defenses for Multimodal Large Language Models [11.02754617539271]
我々は,MLLMのジェイルブレイク攻撃と防御技術を評価するための統合パイプラインであるtextitMMJ-Benchを紹介する。
我々は,SoTA MLLMに対する様々な攻撃方法の有効性を評価し,防御機構が防御効果とモデルの有用性に与える影響を評価する。
論文 参考訳(メタデータ) (2024-08-16T00:18:23Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。