論文の概要: Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for Black-box Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2411.07559v1
- Date: Tue, 12 Nov 2024 05:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:18:17.609541
- Title: Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for Black-box Multi-modal Large Language Models
- Title(参考訳): Zer0-Jack: Black-box Multi-modal Large Language Model のためのメモリ効率のよいグラディエントベースのジェイルブレーク法
- Authors: Tiejin Chen, Kaishen Wang, Hua Wei,
- Abstract要約: ゼロ階最適化を利用して,ホワイトボックスアクセスの必要性を回避できるZer0-Jackを提案する。
Zer0-Jackは様々なモデルで高い攻撃成功率を達成する。
GPT-4oのような商用MLLMをZer0-Jackが直接攻撃できることを示す。
- 参考スコア(独自算出の注目度): 2.740881223898167
- License:
- Abstract: Jailbreaking methods, which induce Multi-modal Large Language Models (MLLMs) to output harmful responses, raise significant safety concerns. Among these methods, gradient-based approaches, which use gradients to generate malicious prompts, have been widely studied due to their high success rates in white-box settings, where full access to the model is available. However, these methods have notable limitations: they require white-box access, which is not always feasible, and involve high memory usage. To address scenarios where white-box access is unavailable, attackers often resort to transfer attacks. In transfer attacks, malicious inputs generated using white-box models are applied to black-box models, but this typically results in reduced attack performance. To overcome these challenges, we propose Zer0-Jack, a method that bypasses the need for white-box access by leveraging zeroth-order optimization. We propose patch coordinate descent to efficiently generate malicious image inputs to directly attack black-box MLLMs, which significantly reduces memory usage further. Through extensive experiments, Zer0-Jack achieves a high attack success rate across various models, surpassing previous transfer-based methods and performing comparably with existing white-box jailbreak techniques. Notably, Zer0-Jack achieves a 95\% attack success rate on MiniGPT-4 with the Harmful Behaviors Multi-modal Dataset on a black-box setting, demonstrating its effectiveness. Additionally, we show that Zer0-Jack can directly attack commercial MLLMs such as GPT-4o. Codes are provided in the supplement.
- Abstract(参考訳): 有害な応答を出力するためにMLLM(Multi-modal Large Language Models)を誘導する脱獄法は、重大な安全性上の懸念を提起する。
これらの手法のうち、悪質なプロンプトを生成するために勾配を利用する勾配に基づくアプローチは、モデルへの完全なアクセスが可能なホワイトボックス設定での成功率が高いため、広く研究されている。
しかし、これらの手法には顕著な制限があり、ホワイトボックスアクセスが必要であり、これは必ずしも実現可能ではなく、高いメモリ使用率を必要とする。
ホワイトボックスアクセスが利用できないシナリオに対処するために、攻撃者はしばしば攻撃を転送する。
転送攻撃では、ブラックボックスモデルで生成された悪意のある入力がブラックボックスモデルに適用されるが、通常は攻撃性能が低下する。
これらの課題を克服するために、ゼロ階最適化を利用してホワイトボックスアクセスを回避できるZer0-Jackを提案する。
ブラックボックスMLLMを直接攻撃するために、悪意ある画像入力を効率よく生成するパッチ座標降下法を提案し、メモリ使用量を大幅に削減する。
大規模な実験を通じて、Zer0-Jackは様々なモデルで高い攻撃成功率を達成し、従来の転送ベースの手法を超越し、既存のホワイトボックスジェイルブレイク技術と互換性のある性能を実現している。
特にZer0-Jackは、ブラックボックス設定のハームフル・ビヘイビア・マルチモーダル・データセットを用いて、MiniGPT-4で95%の攻撃成功率を実現し、その効果を実証している。
また,Zer0-Jack は GPT-4o などの商用MLLM を直接攻撃できることを示す。
コードはサプリメントに記載されている。
関連論文リスト
- Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - RED QUEEN: Safeguarding Large Language Models against Concealed
Multi-Turn Jailbreaking [30.67803190789498]
我々は,害の防止という目的の下に悪意のある意図を隠蔽し,マルチターンシナリオを構築する新しいジェイルブレイク手法RED QUEEN ATTACKを提案する。
我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。
安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
論文 参考訳(メタデータ) (2024-09-26T01:24:17Z) - AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs [34.221522224051846]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃を適応的に行うための適応的位置補充型ジェイルブレイク攻撃手法を提案する。
提案手法は,提案モデルの命令追従能力を利用して,まず安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。
本手法は,従来の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上させることができる。
論文 参考訳(メタデータ) (2024-09-11T00:00:58Z) - Query Efficient Cross-Dataset Transferable Black-Box Attack on Action
Recognition [99.29804193431823]
ブラックボックスの敵攻撃は、行動認識システムに現実的な脅威をもたらす。
本稿では,摂動を発生させることにより,これらの欠点に対処する新たな行動認識攻撃を提案する。
提案手法は,最先端のクエリベースおよび転送ベース攻撃と比較して,8%,12%の偽装率を達成する。
論文 参考訳(メタデータ) (2022-11-23T17:47:49Z) - T-SEA: Transfer-based Self-Ensemble Attack on Object Detection [9.794192858806905]
複数のブラックボックス検出器に対する高信頼度対向攻撃を実現するために, 1 つのモデルのみを用いて, モノ検出に対する単一モデル転送ベースブラックボックス攻撃を提案する。
我々は、パッチ最適化を正規モデル最適化と類似させ、入力データ、攻撃モデル、および敵パッチに一連の自己アンサンブルアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-16T10:27:06Z) - Boosting Black-Box Adversarial Attacks with Meta Learning [0.0]
本稿では,代用モデル上でメタ対向摂動(MAP)を訓練し,モデルの勾配を推定してブラックボックス攻撃を行うハイブリッドアタック手法を提案する。
本手法は攻撃成功率を向上するだけでなく,他の手法と比較してクエリ数を減少させる。
論文 参考訳(メタデータ) (2022-03-28T09:32:48Z) - Universal Adversarial Attacks on Neural Networks for Power Allocation in
a Massive MIMO System [60.46526086158021]
我々は,White-box や Black-box 攻撃として,UAP (Universal Adversarial Perturbation) 工法を提案する。
その結果, 敵の成功率は最大60%, 40%の確率で達成できることがわかった。
提案されたUAPベースの攻撃は、古典的なホワイトボックス攻撃に比べて実用的で現実的なアプローチである。
論文 参考訳(メタデータ) (2021-10-10T08:21:03Z) - Meta Gradient Adversarial Attack [64.5070788261061]
本稿では,MGAA(Metaversa Gradient Adrial Attack)と呼ばれる新しいアーキテクチャを提案する。
具体的には、モデル動物園から複数のモデルをランダムにサンプリングし、異なるタスクを構成するとともに、各タスクにおけるホワイトボックス攻撃とブラックボックス攻撃を反復的にシミュレートする。
ブラックボックス攻撃における勾配方向とブラックボックス攻撃の差を狭めることにより、ブラックボックス設定における逆例の転送性を向上させることができる。
論文 参考訳(メタデータ) (2021-08-09T17:44:19Z) - Spanning Attack: Reinforce Black-box Attacks with Unlabeled Data [96.92837098305898]
Black-box攻撃は、機械学習モデルのインプット・アウトプットペアをクエリすることで、敵の摂動を発生させることを目的としている。
ブラックボックス攻撃はしばしば、入力空間の高次元性のためにクエリ非効率性の問題に悩まされる。
本研究では,低次元部分空間における逆摂動を,補助的なラベルのないデータセットに分散させることで抑制するスパンニング攻撃と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-11T05:57:15Z) - Diversity can be Transferred: Output Diversification for White- and
Black-box Attacks [89.92353493977173]
アドリア攻撃は、例えば最適化ベースのホワイトボックス攻撃を初期化したり、ブラックボックス攻撃で更新方向を生成するために、均一あるいはガウス分布から引き出された入力のランダムな摂動を伴うことが多い。
本稿では,対象モデルの出力の多様性を最大化するための新しいサンプリング手法である出力分散サンプリング(ODS)を提案する。
ODSは、既存のホワイトボックス攻撃とブラックボックス攻撃のパフォーマンスを大幅に改善する。
特に、ODSはImageNetに対する最先端のブラックボックス攻撃に必要なクエリ数を2倍に削減する。
論文 参考訳(メタデータ) (2020-03-15T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。