論文の概要: The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections
- arxiv url: http://arxiv.org/abs/2510.09023v1
- Date: Fri, 10 Oct 2025 05:51:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.196082
- Title: The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections
- Title(参考訳): ルム・ジェイルブレイクとプロンプト・インジェクションに対する防御をバイパスするアダプティブ・アタック(動画)
- Authors: Milad Nasr, Nicholas Carlini, Chawin Sitawarin, Sander V. Schulhoff, Jamie Hayes, Michael Ilie, Juliette Pluto, Shuang Song, Harsh Chaudhari, Ilia Shumailov, Abhradeep Thakurta, Kai Yuanqing Xiao, Andreas Terzis, Florian Tramèr,
- Abstract要約: 現在のジェイルブレイクとプロンプトインジェクションに対する防御は、通常、有害な攻撃文字列の静的セットに対して評価される。
我々は,この評価プロセスに欠陥があることを論じる。代わりに,攻撃戦略を明示的に修正したアダプティブアタッカーに対する防御を,防衛設計に対抗して評価すべきである。
- 参考スコア(独自算出の注目度): 74.60337113759313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How should we evaluate the robustness of language model defenses? Current defenses against jailbreaks and prompt injections (which aim to prevent an attacker from eliciting harmful knowledge or remotely triggering malicious actions, respectively) are typically evaluated either against a static set of harmful attack strings, or against computationally weak optimization methods that were not designed with the defense in mind. We argue that this evaluation process is flawed. Instead, we should evaluate defenses against adaptive attackers who explicitly modify their attack strategy to counter a defense's design while spending considerable resources to optimize their objective. By systematically tuning and scaling general optimization techniques-gradient descent, reinforcement learning, random search, and human-guided exploration-we bypass 12 recent defenses (based on a diverse set of techniques) with attack success rate above 90% for most; importantly, the majority of defenses originally reported near-zero attack success rates. We believe that future defense work must consider stronger attacks, such as the ones we describe, in order to make reliable and convincing claims of robustness.
- Abstract(参考訳): 言語モデル防衛の堅牢性を評価するには?
現在のジェイルブレイクとプロンプトインジェクション(攻撃者が有害な知識を引き出すのを防ぐことや、悪意のある行為をリモートでトリガーすることを目的としている)に対する防御は、通常、有害な攻撃文字列の静的セットや、防衛を念頭に置いて設計されていない計算的に弱い最適化方法に対して評価される。
我々はこの評価プロセスに欠陥があると主張している。
代わりに、攻撃戦略を明示的に修正して防御設計に対抗し、目的を最適化するためにかなりのリソースを費やすアダプティブアタックに対する防御を評価する必要がある。
総合最適化手法の体系的なチューニングとスケーリングによって、漸進的な降下、強化学習、ランダム探索、そして人間の誘導による探索は、攻撃成功率が90%以上である12の最近の防衛(多種多様な技術に基づく)をバイパスする。
我々は、将来の防衛作業は、堅牢性の信頼性と説得力のある主張を行うために、我々が記述したようなより強力な攻撃を考慮しなければならないと信じている。
関連論文リスト
- Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - A Critical Evaluation of Defenses against Prompt Injection Attacks [95.81023801370073]
大型言語モデル (LLM) はインジェクション攻撃に弱い。
いくつかの防衛策が提案され、しばしばこれらの攻撃をうまく緩和すると主張した。
既存の研究は、これらの防衛を評価するための原則的なアプローチを欠いていると論じる。
論文 参考訳(メタデータ) (2025-05-23T19:39:56Z) - Counter-Samples: A Stateless Strategy to Neutralize Black Box Adversarial Attacks [2.9815109163161204]
本稿では,ブラックボックス攻撃に対する新たな防御法を提案する。
入力サンプルの衛生化に依存する従来の前処理防御とは異なり、我々の戦略は攻撃プロセス自体に対処する。
我々のアプローチは最先端のブラックボックス攻撃に対して極めて効果的であり、CIFAR-10とImageNetデータセットの双方で既存の防御性能を上回っていることを実証する。
論文 参考訳(メタデータ) (2024-03-14T10:59:54Z) - Hindering Adversarial Attacks with Multiple Encrypted Patch Embeddings [13.604830818397629]
効率性とロバスト性の両方に着目したキーベースの新たな防衛手法を提案する。
我々は,(1)効率的なトレーニングと(2)任意ランダム化という2つの大きな改善をともなう,以前の防衛基盤を構築した。
実験はImageNetデータセット上で行われ、提案された防御は最先端の攻撃兵器に対して評価された。
論文 参考訳(メタデータ) (2023-09-04T14:08:34Z) - Randomness in ML Defenses Helps Persistent Attackers and Hinders
Evaluators [49.52538232104449]
堅牢なMLディフェンスを設計することがますます重要になっている。
近年の研究では、当初最先端の攻撃に抵抗する多くの防衛は、適応的な敵によって破壊される可能性があることが判明している。
我々は、防御設計をシンプルにし、ホワイトボックスの防御は可能な限りランダム性を損なうべきだと論じる。
論文 参考訳(メタデータ) (2023-02-27T01:33:31Z) - A Game-Theoretic Approach for AI-based Botnet Attack Defence [5.020067709306813]
新しい世代のボットネットは、AI(Artificial Intelligent)技術を利用して、ボットマスターのアイデンティティと、検出を避けるための攻撃意図を隠蔽する。
この種のAIベースのボットネット攻撃に対する既存の防衛戦略の有効性を評価することのできる、既存のアセスメントツールが存在しない。
我々は,Nash Equilibrium (NE) に到達するためにボットネット攻撃者やディフェンダーが使用できる潜在的戦略の詳細を分析することができる逐次ゲーム理論モデルを提案する。
論文 参考訳(メタデータ) (2021-12-04T02:53:40Z) - TROJANZOO: Everything you ever wanted to know about neural backdoors
(but were afraid to ask) [28.785693760449604]
TROJANZOOは、ニューラルバックドア攻撃/防御を評価するための最初のオープンソースプラットフォームです。
12の代表的な攻撃、15の最先端の防御、6の攻撃パフォーマンスメトリクス、10の防衛ユーティリティメトリクス、および攻撃防御相互作用の分析のための豊富なツールがあります。
既存の攻撃/防御の体系的な調査を行い、多くの興味深い発見をもたらします。
論文 参考訳(メタデータ) (2020-12-16T22:37:27Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z) - Deflecting Adversarial Attacks [94.85315681223702]
我々は、攻撃者が攻撃対象クラスに似た入力を生成することによって、敵攻撃を「防御」するこのサイクルを終わらせる新しいアプローチを提案する。
本稿ではまず,3つの検出機構を組み合わせたカプセルネットワークに基づくより強力な防御手法を提案する。
論文 参考訳(メタデータ) (2020-02-18T06:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。