論文の概要: LLM Safeguard is a Double-Edged Sword: Exploiting False Positives for Denial-of-Service Attacks
- arxiv url: http://arxiv.org/abs/2410.02916v3
- Date: Wed, 09 Apr 2025 15:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:04:21.159067
- Title: LLM Safeguard is a Double-Edged Sword: Exploiting False Positives for Denial-of-Service Attacks
- Title(参考訳): LLM SafeguardはDouble-Edged Sword: Exploiting False Positives for Denial-of-Service Attacks
- Authors: Qingzhao Zhang, Ziyang Xiong, Z. Morley Mao,
- Abstract要約: 本研究は,セーフガード手法のエンファルス陰性を利用した攻撃について検討する。
悪意のある攻撃者は、セキュリティ保護の偽陽性を悪用する可能性もあり、ユーザーに影響を与えるDoS(DoS)が否定された。
- 参考スコア(独自算出の注目度): 7.013820690538764
- License:
- Abstract: Safety is a paramount concern for large language models (LLMs) in open deployment, motivating the development of safeguard methods that enforce ethical and responsible use through safety alignment or guardrail mechanisms. Jailbreak attacks that exploit the \emph{false negatives} of safeguard methods have emerged as a prominent research focus in the field of LLM security. However, we found that the malicious attackers could also exploit false positives of safeguards, i.e., fooling the safeguard model to block safe content mistakenly, leading to a denial-of-service (DoS) affecting LLM users. To bridge the knowledge gap of this overlooked threat, we explore multiple attack methods that include inserting a short adversarial prompt into user prompt templates and corrupting the LLM on the server by poisoned fine-tuning. In both ways, the attack triggers safeguard rejections of user requests from the client. Our evaluation demonstrates the severity of this threat across multiple scenarios. For instance, in the scenario of white-box adversarial prompt injection, the attacker can use our optimization process to automatically generate seemingly safe adversarial prompts, approximately only 30 characters long, that universally block over 97% of user requests on Llama Guard 3. These findings reveal a new dimension in LLM safeguard evaluation -- adversarial robustness to false positives.
- Abstract(参考訳): 安全は、大規模言語モデル(LLM)のオープンデプロイメントにおける最重要事項であり、安全アライメントやガードレール機構を通じて倫理的かつ責任ある使用を強制するセーフガード手法の開発を動機付けている。
LLMのセキュリティ分野における顕著な研究の焦点として、セーフガード手法の「emph{false negatives}」を利用したジェイルブレイク攻撃が出現している。
しかし、悪意のある攻撃者は、セーフガードの偽陽性、すなわちセーフガードモデルを騙して安全コンテンツを誤ってブロックし、LLMユーザに影響を与えるDoS(DoS)に繋がる可能性があることがわかった。
この見過ごされた脅威の知識ギャップを埋めるために、ユーザプロンプトテンプレートに短い敵のプロンプトを挿入したり、汚染された微調整によってサーバ上のLSMを破損させたりするような、複数の攻撃手法を探索する。
どちらの方法でも、攻撃はクライアントからのユーザリクエストの保護的拒否をトリガーする。
我々の評価は、この脅威が複数のシナリオにまたがって深刻であることを示す。
例えば、ホワイトボックスの敵プロンプトインジェクションのシナリオでは、攻撃者は最適化プロセスを使用して、Llama Guard 3の97%以上のユーザリクエストを普遍的にブロックする約30文字の、安全と思われる敵プロンプトを自動的に生成することができます。
これらの結果から,LLMの安全性評価の新たな次元が明らかとなった。
関連論文リスト
- Exploiting Prefix-Tree in Structured Output Interfaces for Enhancing Jailbreak Attacking [34.479355499938116]
大規模言語モデル(LLM)は、重要なアプリケーションをもたらすだけでなく、深刻なセキュリティ脅威も導入している。
我々はAttackPrefixTree (APT)と呼ばれるブラックボックス攻撃フレームワークを導入する。
APTは構造化された出力インタフェースを利用して攻撃パターンを動的に構築する。
ベンチマークデータセットの実験は、このアプローチが既存の手法よりも高い攻撃成功率を達成することを示している。
論文 参考訳(メタデータ) (2025-02-19T08:29:36Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Gandalf the Red: Adaptive Security for LLMs [2.9422902813085665]
大規模言語モデル(LLM)アプリケーションにおける即時攻撃に対する防衛の現在の評価は、敵の行動の動的性質と、制限された防御によって正統なユーザに対して課されるユーザビリティの罰の2つの重要な要素を見落としている。
攻撃者を正当なユーザから明確に分離し、マルチステップインタラクションをモデル化し、最適化可能な形式でセキュリティユーティリティを表現するD-SECを提案する。
論文 参考訳(メタデータ) (2025-01-14T08:30:49Z) - FATH: Authentication-based Test-time Defense against Indirect Prompt Injection Attacks [45.65210717380502]
大規模言語モデル(LLM)は、現実世界のアプリケーションのための追加ツールとテキスト情報を備えたバックボーンとして広くデプロイされている。
プロンプトインジェクション攻撃は特に脅威であり、外部のテキスト情報に悪意のあるインストラクションを注入することで、LLMを利用して攻撃者が望む答えを生成することができる。
本稿では,AuThentication with Hash-based tags (FATH)という新しいテストタイム防衛戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-28T20:02:47Z) - SPIN: Self-Supervised Prompt INjection [16.253558670549697]
敵の攻撃と脱獄攻撃は 安全アライメントを回避し モデルに有害な反応をもたらすよう提案されている
自己監督型プロンプト注入(SPIN)を導入し,LSMに対するこれらの様々な攻撃を検出し,逆転させることができる。
本システムでは,攻撃成功率を87.9%まで削減し,ユーザ要求の良質な性能を維持しながら,攻撃成功率を最大で87.9%削減する。
論文 参考訳(メタデータ) (2024-10-17T05:40:54Z) - MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks [2.873719680183099]
本稿では,大規模言語モデル(LLM)における脱獄予防の重要性を論じる。
我々は,既存の最先端ガードレールの限界を超えるよう設計された,新しいガードレールアーキテクチャであるMoJEを紹介する。
MoJEは、モデル推論中に最小限の計算オーバーヘッドを維持しながら、ジェイルブレイク攻撃の検出に優れる。
論文 参考訳(メタデータ) (2024-09-26T10:12:19Z) - Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。