論文の概要: STACK: Adversarial Attacks on LLM Safeguard Pipelines
- arxiv url: http://arxiv.org/abs/2506.24068v1
- Date: Mon, 30 Jun 2025 17:21:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.169389
- Title: STACK: Adversarial Attacks on LLM Safeguard Pipelines
- Title(参考訳): STACK: LLM セーフガードパイプラインの敵攻撃
- Authors: Ian R. McKenzie, Oskar J. Hollinsworth, Tom Tseng, Xander Davies, Stephen Casper, Aaron D. Tucker, Robert Kirk, Adam Gleave,
- Abstract要約: Anthropicが最新のClaude 4 Opusモデルを1つの防衛パイプラインを使ってガードする。
Google DeepMindやOpenAIを含む他のフロンティア開発者は、近く同様の防御を展開すると約束している。
このギャップに対処するため、オープンソースのディフェンスパイプラインを開発し、再チーム化する。
- 参考スコア(独自算出の注目度): 5.784929232265091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier AI developers are relying on layers of safeguards to protect against catastrophic misuse of AI systems. Anthropic guards their latest Claude 4 Opus model using one such defense pipeline, and other frontier developers including Google DeepMind and OpenAI pledge to soon deploy similar defenses. However, the security of such pipelines is unclear, with limited prior work evaluating or attacking these pipelines. We address this gap by developing and red-teaming an open-source defense pipeline. First, we find that a novel few-shot-prompted input and output classifier outperforms state-of-the-art open-weight safeguard model ShieldGemma across three attacks and two datasets, reducing the attack success rate (ASR) to 0% on the catastrophic misuse dataset ClearHarm. Second, we introduce a STaged AttaCK (STACK) procedure that achieves 71% ASR on ClearHarm in a black-box attack against the few-shot-prompted classifier pipeline. Finally, we also evaluate STACK in a transfer setting, achieving 33% ASR, providing initial evidence that it is feasible to design attacks with no access to the target pipeline. We conclude by suggesting specific mitigations that developers could use to thwart staged attacks.
- Abstract(参考訳): 最先端のAI開発者は、AIシステムの破滅的な悪用を防ぐために、保護層に依存している。
Anthropicは、そのような防御パイプラインを使用して、最新のClaude 4 Opusモデルを保護し、Google DeepMindやOpenAIを含む他のフロンティア開発者は、近く同様の防御をデプロイすることを約束している。
しかし、そのようなパイプラインのセキュリティは不明確であり、これらのパイプラインを評価したり攻撃したりする以前の作業は限られている。
このギャップに対処するため、オープンソースのディフェンスパイプラインを開発し、再チーム化する。
まず、3つの攻撃と2つのデータセットにまたがって、最先端のオープンウェイトセーフガードモデルであるShieldGemmaの性能を向上し、破滅的な誤用データセットであるClearHarmの攻撃成功率(ASR)を0%に低下させる。
第2に、数発のプロンプトされた分類器パイプラインに対するブラックボックス攻撃において、ClearHarm上で71%のASRを達成するSTACK(STaged AttaCK)手順を導入する。
最後に、STACKを転送設定で評価し、33%のASRを達成し、ターゲットパイプラインにアクセスせずに攻撃を設計できるという最初の証拠を提供する。
私たちは、開発者がステージドアタックを阻止するために使用できる、具体的な緩和を提案することで締めくくります。
関連論文リスト
- Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - No, of course I can! Refusal Mechanisms Can Be Exploited Using Harmless Fine-Tuning Data [22.667573777927203]
我々は、まずモデルに応答する前に有害な要求を拒否するよう訓練する新しい微調整攻撃を提案する。
この "refuse-then-comply" 戦略は浅い防御をバイパスし、出力フィルタを回避する有害な応答を生成する。
われわれの攻撃はOpenAIから2000ドルのバグ報奨金を受け、Anthhropicによって脆弱性として認識された。
論文 参考訳(メタデータ) (2025-02-26T20:20:01Z) - Stealthy and Robust Backdoor Attack against 3D Point Clouds through Additional Point Features [7.066252856912398]
3Dバックドア攻撃は、3Dポイントクラウド用に設計された3Dディープニューラルネットワーク(3D DNN)に重大な脅威をもたらしている。
本稿では、意図的な設計上の考慮を通じて頑丈さとステルス性を保証するSRBA(Stealthy and Robust Backdoor Attack)を紹介する。
論文 参考訳(メタデータ) (2024-12-10T13:48:11Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Evaluating Gradient Inversion Attacks and Defenses in Federated Learning [43.993693910541275]
本稿では,既存の攻撃と,勾配反転攻撃に対する防御について検討する。
提案する3つの防御機構のプライバシー漏洩とデータユーティリティのトレードオフを示す。
我々の研究結果は、現在最先端の攻撃は、小さなデータユーティリティー損失で防御可能であることを示唆している。
論文 参考訳(メタデータ) (2021-11-30T19:34:16Z) - Certifiers Make Neural Networks Vulnerable to Availability Attacks [70.69104148250614]
私たちは初めて、逆転戦略が敵によって意図的に引き起こされる可能性があることを示します。
いくつかの入力や摂動のために自然に発生する障害に加えて、敵は故意にフォールバックを誘発するために訓練時間攻撃を使用することができる。
我々は2つの新しいアベイラビリティーアタックを設計し、これらの脅威の実用的妥当性を示す。
論文 参考訳(メタデータ) (2021-08-25T15:49:10Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Mitigating Advanced Adversarial Attacks with More Advanced Gradient
Obfuscation Techniques [13.972753012322126]
Deep Neural Networks (DNN) は、Adversarial Examples (AEs) に弱いことがよく知られている。
近年,高度勾配に基づく攻撃手法が提案されている。
本稿では、これらの高度な勾配に基づく攻撃を緩和するための着実に一歩を踏み出す。
論文 参考訳(メタデータ) (2020-05-27T23:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。