Fugu-MT 論文翻訳(概要): Antelope: Potent and Concealed Jailbreak Attack Strategy

論文の概要: Antelope: Potent and Concealed Jailbreak Attack Strategy

arxiv url: http://arxiv.org/abs/2412.08156v1
Date: Wed, 11 Dec 2024 07:22:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.58881
Title: Antelope: Potent and Concealed Jailbreak Attack Strategy
Title（参考訳）: アンテロープ:潜在的かつ確固たるジェイルブレイク攻撃戦略
Authors: Xin Zhao, Xiaojun Chen, Haoyu Gao,
Abstract要約: Antelopeは、ジェネレーティブモデル固有のセキュリティ脆弱性を明らかにするために設計された、より堅牢で隠蔽されたジェイルブレイク攻撃戦略である。我々は、オンラインブラックボックスサービスに侵入するために、モデルベースの攻撃の転送可能性を利用することに成功した。
参考スコア（独自算出の注目度）: 7.970002819722513
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the remarkable generative potential of diffusion-based models, numerous researches have investigated jailbreak attacks targeting these frameworks. A particularly concerning threat within image models is the generation of Not-Safe-for-Work (NSFW) content. Despite the implementation of security filters, numerous efforts continue to explore ways to circumvent these safeguards. Current attack methodologies primarily encompass adversarial prompt engineering or concept obfuscation, yet they frequently suffer from slow search efficiency, conspicuous attack characteristics and poor alignment with targets. To overcome these challenges, we propose Antelope, a more robust and covert jailbreak attack strategy designed to expose security vulnerabilities inherent in generative models. Specifically, Antelope leverages the confusion of sensitive concepts with similar ones, facilitates searches in the semantically adjacent space of these related concepts and aligns them with the target imagery, thereby generating sensitive images that are consistent with the target and capable of evading detection. Besides, we successfully exploit the transferability of model-based attacks to penetrate online black-box services. Experimental evaluations demonstrate that Antelope outperforms existing baselines across multiple defensive mechanisms, underscoring its efficacy and versatility.
Abstract（参考訳）: 拡散モデルによる顕著な生成可能性のため、これらのフレームワークを標的としたジェイルブレイク攻撃について多くの研究がなされている。特にイメージモデル内の脅威は、Not-Safe-for-Work(NSFW)コンテンツの生成である。セキュリティフィルタの実装にもかかわらず、多くの努力がこれらの保護を回避する方法を模索している。現在の攻撃手法は、主に敵の急進的エンジニアリングや概念難読化を含むが、探索効率の低下、目立った攻撃特性、目標との整合性の低下に悩まされることが多い。これらの課題を克服するために、生成モデル固有のセキュリティ脆弱性を明らかにするために設計された、より堅牢で隠蔽されたジェイルブレイク攻撃戦略であるAntelopeを提案する。具体的には、Antelopeは、類似した概念とセンシティブな概念の混同を利用して、これらの概念のセマンティックに隣接した空間を探索し、ターゲット画像と整列させ、ターゲットと整合し、検出を回避できるセンシティブなイメージを生成する。さらに、オンラインブラックボックスサービスに侵入するために、モデルベースの攻撃の転送可能性を利用することに成功した。実験的評価では、アンテロープは既存のベースラインを複数の防御機構で上回り、その有効性と汎用性を裏付けている。

関連論文リスト

Explainer-guided Targeted Adversarial Attacks against Binary Code Similarity Detection Models [12.524811181751577]
我々は,BCSDモデルに対する敵攻撃に対する新たな最適化を提案する。特に,攻撃目標は,モデル予測を特定の範囲に制限することである。我々の攻撃は、モデル決定境界の解釈において、ブラックボックス、モデルに依存しない説明器の優れた能力を活用する。
論文参考訳（メタデータ） (2025-06-05T08:29:19Z)
MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。 OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文参考訳（メタデータ） (2025-06-03T01:37:09Z)
Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文参考訳（メタデータ） (2025-03-14T17:39:45Z)
CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文参考訳（メタデータ） (2025-03-08T17:33:55Z)
Evaluating the Robustness of LiDAR Point Cloud Tracking Against Adversarial Attack [6.101494710781259]
本稿では,3次元物体追跡の文脈において,敵攻撃を行うための統一的なフレームワークを提案する。ブラックボックス攻撃のシナリオに対処するために,新たなトランスファーベースアプローチであるTarget-aware Perturbation Generation (TAPG)アルゴリズムを導入する。実験の結果,ブラックボックスとホワイトボックスの両方の攻撃を受けた場合,高度な追跡手法に重大な脆弱性があることが判明した。
論文参考訳（メタデータ） (2024-10-28T10:20:38Z)
You Know What I'm Saying: Jailbreak Attack via Implicit Reference [22.520950422702757]
本研究は、以前見過ごされた脆弱性を特定し、Implicit Reference (AIR) による攻撃(Attack)と呼ぶ。 AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。我々の実験は、AIRが最先端のLLMに対して有効であることを示し、ほとんどのモデルで90%を超える攻撃成功率(ASR)を達成した。
論文参考訳（メタデータ） (2024-10-04T18:42:57Z)
The Great Contradiction Showdown: How Jailbreak and Stealth Wrestle in Vision-Language Models? [23.347349690954452]
VLM(Vision-Language Models)は、様々なタスクにおいて顕著なパフォーマンスを達成したが、Jailbreak攻撃には弱いままである。これらの攻撃の有効性とステルスネスの基本的なトレードオフを理解するための情報理論の枠組みを提供する。本研究では,非スティルシージェイルブレイク攻撃を効果的に検出し,モデルロバスト性を大幅に向上させるアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-02T11:40:49Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
Principles of Designing Robust Remote Face Anti-Spoofing Systems [60.05766968805833]
本稿では,デジタル攻撃に対する最先端の対面防止手法の脆弱性に光を当てる。反偽造システムに遭遇する一般的な脅威を包括的に分類する。
論文参考訳（メタデータ） (2024-06-06T02:05:35Z)
Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。 MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文参考訳（メタデータ） (2024-04-04T10:10:38Z)
Revealing Vulnerabilities in Stable Diffusion via Targeted Attacks [41.531913152661296]
本稿では,安定拡散に対する標的対向攻撃の問題を定式化し,対向的プロンプトを生成するための枠組みを提案する。具体的には、安定した拡散を誘導し、特定の画像を生成するための信頼性の高い逆プロンプトを構築するために、勾配に基づく埋め込み最適化を設計する。逆方向のプロンプトを成功させた後、モデルの脆弱性を引き起こすメカニズムを明らかにする。
論文参考訳（メタデータ） (2024-01-16T12:15:39Z)
Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文参考訳（メタデータ） (2023-12-20T05:06:01Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。