Fugu-MT 論文翻訳(概要): MAD-MAX: Modular And Diverse Malicious Attack MiXtures for Automated LLM Red Teaming

論文の概要: MAD-MAX: Modular And Diverse Malicious Attack MiXtures for Automated LLM Red Teaming

arxiv url: http://arxiv.org/abs/2503.06253v1
Date: Sat, 08 Mar 2025 15:28:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.282814
Title: MAD-MAX: Modular And Diverse Malicious Attack MiXtures for Automated LLM Red Teaming
Title（参考訳）: MAD-MAX: 自動LLMレッドチームのためのモジュール型および横型悪意的攻撃ミキサー
Authors: Stefan Schoepf, Muhammad Zaid Hameed, Ambrish Rawat, Kieran Fraser, Giulio Zizzo, Giandomenico Cornacchia, Mark Purcell,
Abstract要約: 既存のRed Teamingメソッドは、コスト効率、成功率の攻撃、多様性の攻撃、あるいは新たな攻撃タイプが出現するにつれて拡張性に欠ける。自動LLMレッドチームのためのMAD-MAX(Modular and Diverse Malicious Attack MiXtures)を用いて,これらの課題に対処する。 GPT-4o と Gemini-Pro のベンチマークでは,MAD-MAX のjailbreak が 97% で,TAP が 66% であったのに対し,MAD-MAX のjailbreak は 97% であった。
参考スコア（独自算出の注目度）: 2.7550587326026643
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With LLM usage rapidly increasing, their vulnerability to jailbreaks that create harmful outputs are a major security risk. As new jailbreaking strategies emerge and models are changed by fine-tuning, continuous testing for security vulnerabilities is necessary. Existing Red Teaming methods fall short in cost efficiency, attack success rate, attack diversity, or extensibility as new attack types emerge. We address these challenges with Modular And Diverse Malicious Attack MiXtures (MAD-MAX) for Automated LLM Red Teaming. MAD-MAX uses automatic assignment of attack strategies into relevant attack clusters, chooses the most relevant clusters for a malicious goal, and then combines strategies from the selected clusters to achieve diverse novel attacks with high attack success rates. MAD-MAX further merges promising attacks together at each iteration of Red Teaming to boost performance and introduces a similarity filter to prune out similar attacks for increased cost efficiency. The MAD-MAX approach is designed to be easily extensible with newly discovered attack strategies and outperforms the prominent Red Teaming method Tree of Attacks with Pruning (TAP) significantly in terms of Attack Success Rate (ASR) and queries needed to achieve jailbreaks. MAD-MAX jailbreaks 97% of malicious goals in our benchmarks on GPT-4o and Gemini-Pro compared to TAP with 66%. MAD-MAX does so with only 10.9 average queries to the target LLM compared to TAP with 23.3. WARNING: This paper contains contents which are offensive in nature.
Abstract（参考訳）: LLMの使用が急速に増加する中、有害なアウトプットを生成するジェイルブレイクに対する脆弱性は、大きなセキュリティリスクである。新しいjailbreak戦略が出現し、微調整によってモデルが変更されるため、セキュリティ脆弱性に対する継続的テストが必要である。既存のRed Teamingメソッドは、コスト効率、成功率の攻撃、多様性の攻撃、あるいは新たな攻撃タイプが出現するにつれて拡張性に欠ける。自動LLMレッドチームのためのMAD-MAX(Modular and Diverse Malicious Attack MiXtures)を用いて,これらの課題に対処する。 MAD-MAXは、関連する攻撃クラスタへの攻撃戦略の自動割り当てを使用して、悪意のある目標に対して最も関連性の高いクラスタを選択し、選択したクラスタからの戦略を組み合わせて、多様な新規攻撃を高い攻撃成功率で達成する。 MAD-MAXはさらに、Red Teamingの各イテレーションで有望なアタックをマージしてパフォーマンスを向上し、類似度フィルタを導入して、同様のアタックを実行してコスト効率を向上する。 MAD-MAXアプローチは、新たに発見された攻撃戦略で容易に拡張可能で、アタック成功率(ASR)とジェイルブレイクを達成するのに必要なクエリにおいて、卓越したRed TeamingメソッドであるTree of Attacks with Pruning(TAP)よりも優れているように設計されている。 MAD-MAXはGPT-4oとGemini-Proのベンチマークで悪質な目標の97%を占めています。 MAD-MAX はターゲット LLM に対して平均 10.9 クエリしか持たないが、TAP は 23.3 である。 WARNING: 本論文は自然に不快な内容を含む。

関連論文リスト

Prompt Optimization and Evaluation for LLM Automated Red Teaming [0.5259346146529064]
本稿では,ASRを個別攻撃に適用する攻撃発生プロンプトの最適化手法を提案する。ランダムにシードされたターゲットに対する攻撃を繰り返すことで、攻撃の発見可能性と個々の攻撃成功の期待を計測する。
論文参考訳（メタデータ） (2025-07-29T18:08:01Z)
Capability-Based Scaling Laws for LLM Red-Teaming [71.89259138609965]
従来のプロンプト・エンジニアリングのアプローチは、レッド・チーム化が弱々しく強い問題となると、効果が低下する可能性がある。我々は,LLMをベースとしたアタッカー・ターゲットペア500以上を,人間のレッドチームの模倣したジェイルブレイク攻撃を用いて評価した。我々は、攻撃目標能力のギャップに基づいて、固定目標に対する攻撃成功を予測するジェイルブレイクスケーリング法を導出する。
論文参考訳（メタデータ） (2025-05-26T16:05:41Z)
Graph of Attacks with Pruning: Optimizing Stealthy Jailbreak Prompt Generation for Enhanced LLM Content Moderation [12.303965802578087]
本稿では,ステルスなジェイルブレイクプロンプトを生成するためのGAP(Graph of Attacks with Pruning)フレームワークを紹介する。 GAPは、相互接続グラフ構造を実装することで、既存のツリーベースのLLMジェイルブレイク手法の制限に対処する。自動シード生成のためのGAP-Autoや、マルチモーダル攻撃のためのGAP-VLMなど、特殊なバリエーションを提示する。
論文参考訳（メタデータ） (2025-01-28T17:10:20Z)
RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking [30.67803190789498]
我々は,害の防止という目的の下に悪意のある意図を隠蔽し,マルチターンシナリオを構築する新しいジェイルブレイク手法RED QUEEN ATTACKを提案する。我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
論文参考訳（メタデータ） (2024-09-26T01:24:17Z)
QROA: A Black-Box Query-Response Optimization Attack on LLMs [2.7624021966289605]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を持っている。本研究は,問合せのみの相互作用を通じてLCMを利用する最適化戦略であるクエリ応答最適化攻撃(QROA)を紹介する。
論文参考訳（メタデータ） (2024-06-04T07:27:36Z)
Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文参考訳（メタデータ） (2024-05-28T19:16:17Z)
PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。 PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。 GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文参考訳（メタデータ） (2024-02-15T02:54:49Z)
Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks [17.22989422489567]
大規模言語モデル(LLM)は敵の攻撃や脱獄に対して脆弱である。本稿では,LLMをジェイルブレイク攻撃から守るための最適化に基づく目標と,堅牢なシステムレベルの防御を実現するアルゴリズムを提案する。 GPT-4の攻撃成功率(ASR)は6%,Llama-2の攻撃成功率(ASR)は0%に低下した。
論文参考訳（メタデータ） (2024-01-30T18:56:08Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)
Efficient Adversarial Attacks on Online Multi-agent Reinforcement Learning [45.408568528354216]
対人攻撃がマルチエージェント強化学習(MARL)に及ぼす影響について検討する。検討された設定では、エージェントがそれらを受け取る前に報酬を変更したり、環境がそれを受け取る前にアクションを操作することができる攻撃者がいる。この混合攻撃戦略は,攻撃者が基礎となる環境やエージェントのアルゴリズムに関する事前情報を持っていなくても,MARLエージェントを効果的に攻撃することができることを示す。
論文参考訳（メタデータ） (2023-07-15T00:38:55Z)
LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文参考訳（メタデータ） (2022-03-13T10:21:26Z)
Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。 CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文参考訳（メタデータ） (2020-12-10T03:21:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。