論文の概要: MAD-MAX: Modular And Diverse Malicious Attack MiXtures for Automated LLM Red Teaming
- arxiv url: http://arxiv.org/abs/2503.06253v1
- Date: Sat, 08 Mar 2025 15:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:46:53.654352
- Title: MAD-MAX: Modular And Diverse Malicious Attack MiXtures for Automated LLM Red Teaming
- Title(参考訳): MAD-MAX: 自動LLMレッドチームのためのモジュール型および横型悪意的攻撃ミキサー
- Authors: Stefan Schoepf, Muhammad Zaid Hameed, Ambrish Rawat, Kieran Fraser, Giulio Zizzo, Giandomenico Cornacchia, Mark Purcell,
- Abstract要約: 既存のRed Teamingメソッドは、コスト効率、成功率の攻撃、多様性の攻撃、あるいは新たな攻撃タイプが出現するにつれて拡張性に欠ける。
自動LLMレッドチームのためのMAD-MAX(Modular and Diverse Malicious Attack MiXtures)を用いて,これらの課題に対処する。
GPT-4o と Gemini-Pro のベンチマークでは,MAD-MAX のjailbreak が 97% で,TAP が 66% であったのに対し,MAD-MAX のjailbreak は 97% であった。
- 参考スコア(独自算出の注目度): 2.7550587326026643
- License:
- Abstract: With LLM usage rapidly increasing, their vulnerability to jailbreaks that create harmful outputs are a major security risk. As new jailbreaking strategies emerge and models are changed by fine-tuning, continuous testing for security vulnerabilities is necessary. Existing Red Teaming methods fall short in cost efficiency, attack success rate, attack diversity, or extensibility as new attack types emerge. We address these challenges with Modular And Diverse Malicious Attack MiXtures (MAD-MAX) for Automated LLM Red Teaming. MAD-MAX uses automatic assignment of attack strategies into relevant attack clusters, chooses the most relevant clusters for a malicious goal, and then combines strategies from the selected clusters to achieve diverse novel attacks with high attack success rates. MAD-MAX further merges promising attacks together at each iteration of Red Teaming to boost performance and introduces a similarity filter to prune out similar attacks for increased cost efficiency. The MAD-MAX approach is designed to be easily extensible with newly discovered attack strategies and outperforms the prominent Red Teaming method Tree of Attacks with Pruning (TAP) significantly in terms of Attack Success Rate (ASR) and queries needed to achieve jailbreaks. MAD-MAX jailbreaks 97% of malicious goals in our benchmarks on GPT-4o and Gemini-Pro compared to TAP with 66%. MAD-MAX does so with only 10.9 average queries to the target LLM compared to TAP with 23.3. WARNING: This paper contains contents which are offensive in nature.
- Abstract(参考訳): LLMの使用が急速に増加する中、有害なアウトプットを生成するジェイルブレイクに対する脆弱性は、大きなセキュリティリスクである。
新しいjailbreak戦略が出現し、微調整によってモデルが変更されるため、セキュリティ脆弱性に対する継続的テストが必要である。
既存のRed Teamingメソッドは、コスト効率、成功率の攻撃、多様性の攻撃、あるいは新たな攻撃タイプが出現するにつれて拡張性に欠ける。
自動LLMレッドチームのためのMAD-MAX(Modular and Diverse Malicious Attack MiXtures)を用いて,これらの課題に対処する。
MAD-MAXは、関連する攻撃クラスタへの攻撃戦略の自動割り当てを使用して、悪意のある目標に対して最も関連性の高いクラスタを選択し、選択したクラスタからの戦略を組み合わせて、多様な新規攻撃を高い攻撃成功率で達成する。
MAD-MAXはさらに、Red Teamingの各イテレーションで有望なアタックをマージしてパフォーマンスを向上し、類似度フィルタを導入して、同様のアタックを実行してコスト効率を向上する。
MAD-MAXアプローチは、新たに発見された攻撃戦略で容易に拡張可能で、アタック成功率(ASR)とジェイルブレイクを達成するのに必要なクエリにおいて、卓越したRed TeamingメソッドであるTree of Attacks with Pruning(TAP)よりも優れているように設計されている。
MAD-MAXはGPT-4oとGemini-Proのベンチマークで悪質な目標の97%を占めています。
MAD-MAX はターゲット LLM に対して平均 10.9 クエリしか持たないが、TAP は 23.3 である。
WARNING: 本論文は自然に不快な内容を含む。
関連論文リスト
- RED QUEEN: Safeguarding Large Language Models against Concealed
Multi-Turn Jailbreaking [30.67803190789498]
我々は,害の防止という目的の下に悪意のある意図を隠蔽し,マルチターンシナリオを構築する新しいジェイルブレイク手法RED QUEEN ATTACKを提案する。
我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。
安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
論文 参考訳(メタデータ) (2024-09-26T01:24:17Z) - QROA: A Black-Box Query-Response Optimization Attack on LLMs [2.7624021966289605]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を持っている。
本研究は,問合せのみの相互作用を通じてLCMを利用する最適化戦略であるクエリ応答最適化攻撃(QROA)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T07:27:36Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Efficient Adversarial Attacks on Online Multi-agent Reinforcement
Learning [45.408568528354216]
対人攻撃がマルチエージェント強化学習(MARL)に及ぼす影響について検討する。
検討された設定では、エージェントがそれらを受け取る前に報酬を変更したり、環境がそれを受け取る前にアクションを操作することができる攻撃者がいる。
この混合攻撃戦略は,攻撃者が基礎となる環境やエージェントのアルゴリズムに関する事前情報を持っていなくても,MARLエージェントを効果的に攻撃することができることを示す。
論文 参考訳(メタデータ) (2023-07-15T00:38:55Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。