論文の概要: Mind the Trojan Horse: Image Prompt Adapter Enabling Scalable and Deceptive Jailbreaking
- arxiv url: http://arxiv.org/abs/2504.05838v1
- Date: Tue, 08 Apr 2025 09:20:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:45.773684
- Title: Mind the Trojan Horse: Image Prompt Adapter Enabling Scalable and Deceptive Jailbreaking
- Title(参考訳): トロイの木馬のマインド・ザ・トロイの木馬(動画)
- Authors: Junxi Chen, Junhao Dong, Xiaohua Xie,
- Abstract要約: Image Prompt Adapter (IP-Adapter) はテキスト間拡散モデル (T2I-DM) にますます統合されている。
本稿では,IP-Adapter(T2I-IP-DM)を搭載したT2I-DMが,ハイジャック攻撃と呼ばれる新たなジェイルブレイク攻撃を可能にすることを明らかにした。
- 参考スコア(独自算出の注目度): 29.47125486072488
- License:
- Abstract: Recently, the Image Prompt Adapter (IP-Adapter) has been increasingly integrated into text-to-image diffusion models (T2I-DMs) to improve controllability. However, in this paper, we reveal that T2I-DMs equipped with the IP-Adapter (T2I-IP-DMs) enable a new jailbreak attack named the hijacking attack. We demonstrate that, by uploading imperceptible image-space adversarial examples (AEs), the adversary can hijack massive benign users to jailbreak an Image Generation Service (IGS) driven by T2I-IP-DMs and mislead the public to discredit the service provider. Worse still, the IP-Adapter's dependency on open-source image encoders reduces the knowledge required to craft AEs. Extensive experiments verify the technical feasibility of the hijacking attack. In light of the revealed threat, we investigate several existing defenses and explore combining the IP-Adapter with adversarially trained models to overcome existing defenses' limitations. Our code is available at https://github.com/fhdnskfbeuv/attackIPA.
- Abstract(参考訳): 近年,画像プロンプトアダプタ (IP-Adapter) がテキスト間拡散モデル (T2I-DM) に統合され,制御性が改善されている。
しかし,本稿では,IP-Adapter(T2I-IP-DM)を搭載したT2I-DMが,ハイジャック攻撃と呼ばれる新たなジェイルブレイク攻撃を可能にすることを明らかにした。
画像空間の敵対者(AE)をアップロードすることで、敵対者は大量の良心的ユーザをハイジャックして、T2I-IP-DMによって駆動される画像生成サービス(IGS)をジェイルブレイクし、サービスプロバイダを軽視するために大衆を誤解させることを実証する。
さらに悪いことに、IP-Adapterのオープンソースイメージエンコーダへの依存は、AEを作るのに必要な知識を減らす。
大規模な実験は、ハイジャック攻撃の技術的実現可能性を検証する。
脅威が明らかにされたことを踏まえ、既存の防御を調査し、既存の防御の限界を克服するために、IP-Adapterと敵対的に訓練されたモデルを組み合わせることを検討する。
私たちのコードはhttps://github.com/fhdnskfbeuv/ attackIPA.comで利用可能です。
関連論文リスト
- AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models [20.37481116837779]
AdvI2Iは、入力画像を操作して拡散モデルを誘導し、NSFWコンテンツを生成する新しいフレームワークである。
ジェネレータを最適化して敵画像を作成することで、AdvI2Iは既存の防御機構を回避できる。
本稿では,AdvI2IとAdvI2I-Adaptiveの両方が,現行の安全対策を効果的に回避可能であることを示す。
論文 参考訳(メタデータ) (2024-10-28T19:15:06Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [67.75420257197186]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - Backdoor Attacks against Image-to-Image Networks [37.68893235166283]
深層学習に基づくイメージ・トゥ・イメージ(I2I)ネットワークは、画像の超解像やデノイングといったI2Iタスクの主要な選択肢となっている。
バックドア攻撃に対するI2Iネットワークの感受性に関する包括的調査を行う。
具体的には,侵入されたI2Iネットワークがクリーンな入力画像に対して正常に動作する,新しいバックドア攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-07-15T05:14:17Z) - Automatic Jailbreaking of the Text-to-Image Generative AI Systems [76.9697122883554]
本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。
安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。
当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
論文 参考訳(メタデータ) (2024-05-26T13:32:24Z) - Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models [10.70975463369742]
JPA(Jailbreaking Prompt Attack)について紹介する。
JPAは、アントロニムのグループを使用してテキスト埋め込みスペース内のターゲットの悪意ある概念を検索する。
プレフィックスプロンプトは離散語彙空間で最適化され、テキスト埋め込み空間において悪意ある概念を意味的に整合させる。
論文 参考訳(メタデータ) (2024-04-02T09:49:35Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - VOICE-ZEUS: Impersonating Zoom's E2EE-Protected Static Media and Textual Communications via Simple Voice Manipulations [1.7930036479971307]
Zoomアプリケーションにおける認証手順の現在の実装は、偽造攻撃を非常に受け入れやすい潜在的な脆弱性を導入している。
この脆弱性の存在はE2EEの完全性を損なう可能性がある。
攻撃者が桁のスニペットを記録・並べ替えて、将来のZoomミーティングを損なう新たなセキュリティコードを生成する方法を示す。
論文 参考訳(メタデータ) (2023-10-21T02:45:24Z) - Hardly Perceptible Trojan Attack against Neural Networks with Bit Flips [51.17948837118876]
ほとんど知覚できないトロイア攻撃(HPT)を呈する。
HPTは、加算ノイズと画素あたりのフロー場を利用して、知覚しにくいトロイの木像を作成する。
より優れた攻撃性能を達成するために,ビットフリップ,付加雑音,流れ場を協調的に最適化することを提案する。
論文 参考訳(メタデータ) (2022-07-27T09:56:17Z) - Few-Shot Backdoor Attacks on Visual Object Tracking [80.13936562708426]
視覚オブジェクト追跡(VOT)は、自律運転やインテリジェント監視システムなど、ミッションクリティカルなアプリケーションで広く採用されている。
学習過程の調整により,隠れたバックドアをVOTモデルに容易に埋め込むことができることを示す。
我々の攻撃は潜在的な防御に耐性があることを示し、潜在的なバックドア攻撃に対するVOTモデルの脆弱性を強調します。
論文 参考訳(メタデータ) (2022-01-31T12:38:58Z) - From Image to Imuge: Immunized Image Generation [23.430377385327308]
イムゲ(Imuge)は、画像の自己回復のための画像改ざん耐性生成スキームである。
我々は、U-Netバックボンドエンコーダ、タンパーローカライゼーションネットワーク、イメージリカバリのためのデコーダを共同で訓練する。
本手法は, 種々の攻撃が存在するにも関わらず, 精度の高い改ざん領域の細部を復元できることを示す。
論文 参考訳(メタデータ) (2021-10-27T05:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。