論文の概要: Antelope: Potent and Concealed Jailbreak Attack Strategy
- arxiv url: http://arxiv.org/abs/2412.08156v1
- Date: Wed, 11 Dec 2024 07:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:00:16.531308
- Title: Antelope: Potent and Concealed Jailbreak Attack Strategy
- Title(参考訳): アンテロープ:潜在的かつ確固たるジェイルブレイク攻撃戦略
- Authors: Xin Zhao, Xiaojun Chen, Haoyu Gao,
- Abstract要約: Antelopeは、ジェネレーティブモデル固有のセキュリティ脆弱性を明らかにするために設計された、より堅牢で隠蔽されたジェイルブレイク攻撃戦略である。
我々は、オンラインブラックボックスサービスに侵入するために、モデルベースの攻撃の転送可能性を利用することに成功した。
- 参考スコア(独自算出の注目度): 7.970002819722513
- License:
- Abstract: Due to the remarkable generative potential of diffusion-based models, numerous researches have investigated jailbreak attacks targeting these frameworks. A particularly concerning threat within image models is the generation of Not-Safe-for-Work (NSFW) content. Despite the implementation of security filters, numerous efforts continue to explore ways to circumvent these safeguards. Current attack methodologies primarily encompass adversarial prompt engineering or concept obfuscation, yet they frequently suffer from slow search efficiency, conspicuous attack characteristics and poor alignment with targets. To overcome these challenges, we propose Antelope, a more robust and covert jailbreak attack strategy designed to expose security vulnerabilities inherent in generative models. Specifically, Antelope leverages the confusion of sensitive concepts with similar ones, facilitates searches in the semantically adjacent space of these related concepts and aligns them with the target imagery, thereby generating sensitive images that are consistent with the target and capable of evading detection. Besides, we successfully exploit the transferability of model-based attacks to penetrate online black-box services. Experimental evaluations demonstrate that Antelope outperforms existing baselines across multiple defensive mechanisms, underscoring its efficacy and versatility.
- Abstract(参考訳): 拡散モデルによる顕著な生成可能性のため、これらのフレームワークを標的としたジェイルブレイク攻撃について多くの研究がなされている。
特にイメージモデル内の脅威は、Not-Safe-for-Work(NSFW)コンテンツの生成である。
セキュリティフィルタの実装にもかかわらず、多くの努力がこれらの保護を回避する方法を模索している。
現在の攻撃手法は、主に敵の急進的エンジニアリングや概念難読化を含むが、探索効率の低下、目立った攻撃特性、目標との整合性の低下に悩まされることが多い。
これらの課題を克服するために、生成モデル固有のセキュリティ脆弱性を明らかにするために設計された、より堅牢で隠蔽されたジェイルブレイク攻撃戦略であるAntelopeを提案する。
具体的には、Antelopeは、類似した概念とセンシティブな概念の混同を利用して、これらの概念のセマンティックに隣接した空間を探索し、ターゲット画像と整列させ、ターゲットと整合し、検出を回避できるセンシティブなイメージを生成する。
さらに、オンラインブラックボックスサービスに侵入するために、モデルベースの攻撃の転送可能性を利用することに成功した。
実験的評価では、アンテロープは既存のベースラインを複数の防御機構で上回り、その有効性と汎用性を裏付けている。
関連論文リスト
- Evaluating the Robustness of LiDAR Point Cloud Tracking Against Adversarial Attack [6.101494710781259]
本稿では,3次元物体追跡の文脈において,敵攻撃を行うための統一的なフレームワークを提案する。
ブラックボックス攻撃のシナリオに対処するために,新たなトランスファーベースアプローチであるTarget-aware Perturbation Generation (TAPG)アルゴリズムを導入する。
実験の結果,ブラックボックスとホワイトボックスの両方の攻撃を受けた場合,高度な追跡手法に重大な脆弱性があることが判明した。
論文 参考訳(メタデータ) (2024-10-28T10:20:38Z) - You Know What I'm Saying: Jailbreak Attack via Implicit Reference [22.520950422702757]
本研究は、以前見過ごされた脆弱性を特定し、Implicit Reference (AIR) による攻撃(Attack)と呼ぶ。
AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。
我々の実験は、AIRが最先端のLLMに対して有効であることを示し、ほとんどのモデルで90%を超える攻撃成功率(ASR)を達成した。
論文 参考訳(メタデータ) (2024-10-04T18:42:57Z) - The Great Contradiction Showdown: How Jailbreak and Stealth Wrestle in Vision-Language Models? [23.347349690954452]
VLM(Vision-Language Models)は、様々なタスクにおいて顕著なパフォーマンスを達成したが、Jailbreak攻撃には弱いままである。
これらの攻撃の有効性とステルスネスの基本的なトレードオフを理解するための情報理論の枠組みを提供する。
本研究では,非スティルシージェイルブレイク攻撃を効果的に検出し,モデルロバスト性を大幅に向上させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-02T11:40:49Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Principles of Designing Robust Remote Face Anti-Spoofing Systems [60.05766968805833]
本稿では,デジタル攻撃に対する最先端の対面防止手法の脆弱性に光を当てる。
反偽造システムに遭遇する一般的な脅威を包括的に分類する。
論文 参考訳(メタデータ) (2024-06-06T02:05:35Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks [41.531913152661296]
本稿では,安定拡散に対する標的対向攻撃の問題を定式化し,対向的プロンプトを生成するための枠組みを提案する。
具体的には、安定した拡散を誘導し、特定の画像を生成するための信頼性の高い逆プロンプトを構築するために、勾配に基づく埋め込み最適化を設計する。
逆方向のプロンプトを成功させた後、モデルの脆弱性を引き起こすメカニズムを明らかにする。
論文 参考訳(メタデータ) (2024-01-16T12:15:39Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。
生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。
実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。