論文の概要: A Systematic Literature Review on LLM Defenses Against Prompt Injection and Jailbreaking: Expanding NIST Taxonomy
- arxiv url: http://arxiv.org/abs/2601.22240v1
- Date: Thu, 29 Jan 2026 19:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.014954
- Title: A Systematic Literature Review on LLM Defenses Against Prompt Injection and Jailbreaking: Expanding NIST Taxonomy
- Title(参考訳): プロンプト注入と脱獄に対するLDM防御に関する体系的文献レビュー:NIST分類を拡張して
- Authors: Pedro H. Barcha Correia, Ryan W. Achjian, Diego E. G. Caetano de Oliveira, Ygor Acacio Maria, Victor Takashi Hayashi, Marcos Lopes, Charles Christian Miers, Marcos A. Simplicio,
- Abstract要約: 本研究は,プロンプトインジェクション緩和戦略に関する最初の体系的な文献レビューを提示する。
NISTの報告書や他の学術的レビューや調査に記載されている以上の研究を識別する。
NISTの確立した用語と分類を基盤として、一貫性を促進し、将来の研究者が本研究で提案される標準化された分類の上に構築できるようにする。
- 参考スコア(独自算出の注目度): 0.5958527024442727
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid advancement and widespread adoption of generative artificial intelligence (GenAI) and large language models (LLMs) has been accompanied by the emergence of new security vulnerabilities and challenges, such as jailbreaking and other prompt injection attacks. These maliciously crafted inputs can exploit LLMs, causing data leaks, unauthorized actions, or compromised outputs, for instance. As both offensive and defensive prompt injection techniques evolve quickly, a structured understanding of mitigation strategies becomes increasingly important. To address that, this work presents the first systematic literature review on prompt injection mitigation strategies, comprehending 88 studies. Building upon NIST's report on adversarial machine learning, this work contributes to the field through several avenues. First, it identifies studies beyond those documented in NIST's report and other academic reviews and surveys. Second, we propose an extension to NIST taxonomy by introducing additional categories of defenses. Third, by adopting NIST's established terminology and taxonomy as a foundation, we promote consistency and enable future researchers to build upon the standardized taxonomy proposed in this work. Finally, we provide a comprehensive catalog of the reviewed prompt injection defenses, documenting their reported quantitative effectiveness across specific LLMs and attack datasets, while also indicating which solutions are open-source and model-agnostic. This catalog, together with the guidelines presented herein, aims to serve as a practical resource for researchers advancing the field of adversarial machine learning and for developers seeking to implement effective defenses in production systems.
- Abstract(参考訳): ジェネレーション人工知能(GenAI)と大規模言語モデル(LLM)の急速な進歩と普及は、新しいセキュリティ脆弱性の出現と、ジェイルブレイクや他の迅速なインジェクション攻撃などの課題に伴っている。
これらの悪意ある入力は、LSMを悪用し、データリーク、不正なアクション、妥協されたアウトプットなどを引き起こす。
攻撃的かつ防御的なインジェクション技術が急速に進化するにつれて、緩和戦略の構造化された理解がますます重要になる。
そこで本研究では, 即発注射緩和戦略に関する最初の体系的文献レビューを行い, 88研究を要約した。
NISTの敵対的機械学習に関するレポートに基づいて、この研究はいくつかの道を通じてこの分野に貢献する。
まず、NISTのレポートやその他の学術的レビューや調査に記載されている以上の研究を識別する。
第2に,NIST 分類への拡張として,防衛の新たなカテゴリを導入することを提案する。
第三に、NISTの確立した用語と分類を基盤として、一貫性を促進し、将来の研究者が本研究で提案される標準化された分類の上に構築できるようにする。
最後に、レビューしたプロンプトインジェクションディフェンスの包括的なカタログを提供し、その報告された量的効果を特定のLLMやアタックデータセットで記録するとともに、どのソリューションがオープンソースで、モデルに依存しないかを示す。
本カタログは,本ガイドラインとともに,敵対的機械学習の分野を進展させる研究者や,生産システムにおける効果的な防御の実現を目指す開発者の実践的資源として機能することを目的としている。
関連論文リスト
- A Systematic Survey of Model Extraction Attacks and Defenses: State-of-the-Art and Perspectives [65.3369988566853]
近年の研究では、敵が対象モデルの機能を複製できることが示されている。
モデル抽出攻撃は知的財産権、プライバシー、システムのセキュリティに脅威をもたらす。
本稿では,攻撃機構,防衛手法,計算環境に応じてMEAを分類する新しい分類法を提案する。
論文 参考訳(メタデータ) (2025-08-20T19:49:59Z) - Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。
攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。
実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文 参考訳(メタデータ) (2025-07-17T18:33:50Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [8.345554966569479]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z) - Topological safeguard for evasion attack interpreting the neural
networks' behavior [0.0]
本研究は, 新規な回避攻撃検知装置の開発である。
入力サンプルが注入されたとき、モデルによって与えられるニューロンの活性化に関する情報に焦点を当てる。
この目的のためには、これらの情報をすべて検出器に導入するために、巨大なデータ前処理が必要である。
論文 参考訳(メタデータ) (2024-02-12T08:39:40Z) - Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文 参考訳(メタデータ) (2023-10-16T21:37:24Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。