論文の概要: AutoAdvExBench: Benchmarking autonomous exploitation of adversarial example defenses
- arxiv url: http://arxiv.org/abs/2503.01811v1
- Date: Mon, 03 Mar 2025 18:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:36.027263
- Title: AutoAdvExBench: Benchmarking autonomous exploitation of adversarial example defenses
- Title(参考訳): AutoAdvExBench: 敵のサンプル防御の自律的利用のベンチマーク
- Authors: Nicholas Carlini, Javier Rando, Edoardo Debenedetti, Milad Nasr, Florian Tramèr,
- Abstract要約: AutoAdvExBenchは、大規模言語モデル(LLM)が敵の例に対する防衛を自律的に活用できるかどうかを評価するためのベンチマークである。
我々は,CTF様(ホームワークエクササイズ)の75%を破壊できる強力なエージェントを設計する。
このエージェントは、我々のベンチマークの現実世界の防御の13%でしか成功できないことを示し、実際の"コードを攻撃することの難しさとCTFライクなコードとの間に大きなギャップがあることを示します。
- 参考スコア(独自算出の注目度): 66.87883360545361
- License:
- Abstract: We introduce AutoAdvExBench, a benchmark to evaluate if large language models (LLMs) can autonomously exploit defenses to adversarial examples. Unlike existing security benchmarks that often serve as proxies for real-world tasks, bench directly measures LLMs' success on tasks regularly performed by machine learning security experts. This approach offers a significant advantage: if a LLM could solve the challenges presented in bench, it would immediately present practical utility for adversarial machine learning researchers. We then design a strong agent that is capable of breaking 75% of CTF-like ("homework exercise") adversarial example defenses. However, we show that this agent is only able to succeed on 13% of the real-world defenses in our benchmark, indicating the large gap between difficulty in attacking "real" code, and CTF-like code. In contrast, a stronger LLM that can attack 21% of real defenses only succeeds on 54% of CTF-like defenses. We make this benchmark available at https://github.com/ethz-spylab/AutoAdvExBench.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)が敵の例に対する防衛を自律的に活用できるかどうかを評価するベンチマークであるAutoAdvExBenchを紹介する。
現実世界のタスクのプロキシとして機能する既存のセキュリティベンチマークとは異なり、ベンチは機械学習のセキュリティ専門家が定期的に実行するタスクに対して、LSMの成功を直接測定する。
このアプローチには大きな利点がある: LLMがベンチで提示された課題を解決できれば、敵の機械学習研究者にすぐに実用的なユーティリティを提示できる。
次に,CTF様(ホームワーク・エクササイズ)の75%を破壊できる強力なエージェントを設計する。
しかし、このエージェントは、我々のベンチマークの現実世界の防御の13%しか成功できないことを示し、実際の"コード攻撃の困難さとCTFライクなコードとの間に大きなギャップがあることを示唆している。
対照的に、21%のリアルディフェンスを攻撃できる強力なLDMは、CTFのようなディフェンスの54%でしか成功しない。
このベンチマークはhttps://github.com/ethz-spylab/AutoAdvExBench.comで公開しています。
関連論文リスト
- The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。
既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。
ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - The Best Defense is a Good Offense: Countering LLM-Powered Cyberattacks [2.6528263069045126]
大規模言語モデル(LLM)は、間もなく自律的なサイバーエージェントにとって不可欠なものになるだろう。
我々は,LLM攻撃の脆弱性を生かした新たな防衛戦略を導入する。
以上の結果から, LLM脆弱性を防御戦略に変換する効果を実証し, 防衛成功率を最大90%とした。
論文 参考訳(メタデータ) (2024-10-20T14:07:24Z) - Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents [32.62654499260479]
Agent Security Bench (ASB) は、LSMベースのエージェントの攻撃と防御を形式化し、ベンチマークし、評価するためのフレームワークである。
我々は, インジェクション攻撃10件, メモリ中毒攻撃, 新規のPlan-of-Thoughtバックドア攻撃, 混合攻撃10件, 対応するバックボーン13件についてベンチマークを行った。
ベンチマークの結果,システムプロンプト,ユーザプロンプト処理,ツール使用量,メモリ検索など,エージェント操作のさまざまな段階における重大な脆弱性が明らかになった。
論文 参考訳(メタデータ) (2024-10-03T16:30:47Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks [20.5016054418053]
AutoDefenseは、大規模な言語モデルから有害な応答をフィルタリングするマルチエージェントディフェンスフレームワークである。
私たちのフレームワークは、異なるJailbreak攻撃プロンプトに対して堅牢であり、異なる犠牲者モデルを保護するために使用できます。
論文 参考訳(メタデータ) (2024-03-02T16:52:22Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.70417016955459]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。
我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。
9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文 参考訳(メタデータ) (2023-02-21T20:26:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。