論文の概要: SoK: Taxonomy and Evaluation of Prompt Security in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.15476v1
- Date: Fri, 17 Oct 2025 09:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.560046
- Title: SoK: Taxonomy and Evaluation of Prompt Security in Large Language Models
- Title(参考訳): SoK:大規模言語モデルにおけるプロンプトセキュリティの分類と評価
- Authors: Hanbin Hong, Shuya Feng, Nima Naderloui, Shenao Yan, Jingyu Zhang, Biying Liu, Ali Arastehfard, Heqing Huang, Yuan Hong,
- Abstract要約: 大規模言語モデル(LLM)は現実世界のアプリケーションに不可欠なものとなり、様々な分野にまたがってサービスを動かしている。
彼らの広範な展開は、特にジェイルブレイクのプロンプトを通じて、重大なセキュリティリスクを露呈している。
攻撃技術と防御技術の両方を徹底的に研究しているにもかかわらず、フィールドは断片化されている。
- 参考スコア(独自算出の注目度): 17.94525181892254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have rapidly become integral to real-world applications, powering services across diverse sectors. However, their widespread deployment has exposed critical security risks, particularly through jailbreak prompts that can bypass model alignment and induce harmful outputs. Despite intense research into both attack and defense techniques, the field remains fragmented: definitions, threat models, and evaluation criteria vary widely, impeding systematic progress and fair comparison. In this Systematization of Knowledge (SoK), we address these challenges by (1) proposing a holistic, multi-level taxonomy that organizes attacks, defenses, and vulnerabilities in LLM prompt security; (2) formalizing threat models and cost assumptions into machine-readable profiles for reproducible evaluation; (3) introducing an open-source evaluation toolkit for standardized, auditable comparison of attacks and defenses; (4) releasing JAILBREAKDB, the largest annotated dataset of jailbreak and benign prompts to date; and (5) presenting a comprehensive evaluation and leaderboard of state-of-the-art methods. Our work unifies fragmented research, provides rigorous foundations for future studies, and supports the development of robust, trustworthy LLMs suitable for high-stakes deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な分野にまたがるサービスによって、現実世界のアプリケーションにとって急速に不可欠なものになっている。
しかし、その広範な展開は、特に、モデルアライメントを回避し、有害なアウトプットを誘導できるジェイルブレイクプロンプトを通じて、重大なセキュリティリスクを露呈している。
定義、脅威モデル、評価基準は様々であり、体系的な進歩と公正な比較を妨げる。
本稿では,(1)LLMにおける攻撃・防衛・脆弱性を組織する包括的多段階分類,(2)再現可能な評価のために脅威モデルとコスト仮定を機械可読プロファイルに形式化すること,(3)攻撃・防衛の標準化・監査可能な比較のためのオープンソース評価ツールキットを導入すること,(4)JAILBREAKDBを公開すること,(5)最新手法の包括的な評価とリーダボードを提供することによって,これらの課題に対処する。
我々の研究は断片的な研究を統一し、将来の研究のための厳格な基盤を提供し、高度展開に適した堅牢で信頼性の高いLCMの開発を支援します。
関連論文リスト
- T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - LLMs in Software Security: A Survey of Vulnerability Detection Techniques and Insights [12.424610893030353]
大規模言語モデル(LLM)は、ソフトウェア脆弱性検出のためのトランスフォーメーションツールとして登場している。
本稿では,脆弱性検出におけるLSMの詳細な調査を行う。
言語間の脆弱性検出、マルチモーダルデータ統合、リポジトリレベルの分析といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-10T21:33:38Z) - Safety at Scale: A Comprehensive Survey of Large Model and Agent Safety [296.5392512998251]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。
我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文 参考訳(メタデータ) (2025-02-02T05:14:22Z) - Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [8.345554966569479]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。