論文の概要: CoDefend: Cross-Modal Collaborative Defense via Diffusion Purification and Prompt Optimization
- arxiv url: http://arxiv.org/abs/2510.11096v1
- Date: Mon, 13 Oct 2025 07:44:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.24693
- Title: CoDefend: Cross-Modal Collaborative Defense via Diffusion Purification and Prompt Optimization
- Title(参考訳): CoDefend:拡散浄化とプロンプト最適化によるクロスモーダル協調防衛
- Authors: Fengling Zhu, Boshi Liu, Jingyu Hua, Sheng Zhong,
- Abstract要約: MLLM(Multimodal Large Language Models)は、画像キャプション、視覚的質問応答、モーダル間推論といったタスクにおいて顕著な成功を収めている。
彼らのマルチモーダルな性質は敵の脅威に晒され、攻撃者はモダリティまたは共同で有害な、誤解を招く、あるいは政策に違反するアウトプットを誘導することができる。
敵の訓練や入力の浄化といった既存の防衛戦略は、顕著な制限に直面している。
本稿では,2対の逆方向のクリーンな画像データセットをファインチューン拡散モデルに活用する,教師付き拡散に基づくDenoisingフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.6467356929461925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable success in tasks such as image captioning, visual question answering, and cross-modal reasoning by integrating visual and textual modalities. However, their multimodal nature also exposes them to adversarial threats, where attackers can perturb either modality or both jointly to induce harmful, misleading, or policy violating outputs. Existing defense strategies, such as adversarial training and input purification, face notable limitations: adversarial training typically improves robustness only against known attacks while incurring high computational costs, whereas conventional purification approaches often suffer from degraded image quality and insufficient generalization to complex multimodal tasks. In this work, we focus on defending the visual modality, which frequently serves as the primary entry point for adversarial manipulation. We propose a supervised diffusion based denoising framework that leverages paired adversarial clean image datasets to fine-tune diffusion models with directional, task specific guidance. Unlike prior unsupervised purification methods such as DiffPure, our approach achieves higher quality reconstructions while significantly improving defense robustness in multimodal tasks. Furthermore, we incorporate prompt optimization as a complementary defense mechanism, enhancing resistance against diverse and unseen attack strategies. Extensive experiments on image captioning and visual question answering demonstrate that our method not only substantially improves robustness but also exhibits strong transferability to unknown adversarial attacks. These results highlight the effectiveness of supervised diffusion based denoising for multimodal defense, paving the way for more reliable and secure deployment of MLLMs in real world applications.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、画像キャプション、視覚的質問応答、モーダル間推論といったタスクにおいて、視覚とテキストのモダリティを統合することで、顕著な成功を収めた。
しかし、そのマルチモーダル性もまた敵の脅威に晒され、攻撃者はモダリティまたは共同で、有害な、誤解を招く、あるいは、アウトプットに違反するポリシーを誘導することができる。
敵の訓練は一般的に、既知の攻撃に対してのみ堅牢性を向上し、高い計算コストを発生させる一方、従来の浄化アプローチは、劣化した画像品質と複雑なマルチモーダルタスクへの一般化に苦しむことが多い。
本研究では,視覚的モダリティの防衛に焦点をあてる。
本稿では,2つの対向的クリーンな画像データセットを指向性,タスク固有のガイダンスを持つ微調整拡散モデルに活用する,教師付き拡散に基づくデノベーションフレームワークを提案する。
DiffPureのような従来の教師なしの浄化方法とは異なり、本手法は高い品質の再構築を実現し、マルチモーダルタスクにおける防御ロバスト性を大幅に向上させる。
さらに,突発的最適化を相補的な防御機構として組み込んで,多種多様な攻撃戦略に対する耐性を高める。
画像キャプションと視覚的質問応答の広範囲な実験により,本手法はロバスト性を大幅に向上するだけでなく,未知の敵攻撃に対する強い伝達性を示すことが示された。
これらの結果は,マルチモーダルディフェンスに対する教師付き拡散に基づくデノベーションの有効性を強調し,MLLMのより信頼性が高くセキュアな展開を現実の応用に適用する道を開いた。
関連論文リスト
- Patch is Enough: Naturalistic Adversarial Patch against Vision-Language Pre-training Models [32.23201683108716]
本稿では,攻撃に画像パッチを専ら使用し,オリジナルテキストの完全性を維持する新しい戦略を提案する。
本手法は,拡散モデルからの事前知識を活用し,摂動の真性や自然性を高める。
画像・テキスト・シナリオのホワイトボックス・セッティングで実施した総合実験により,提案手法は既存の手法を著しく上回り,100%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-10-07T10:06:01Z) - Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach [30.9778838504609]
トランスを用いた視覚言語事前学習は、多数のマルチモーダルタスクにおいて例外的な性能を示した。
既存のマルチモーダルアタック手法は、視覚とテキストのモダリティ間のクロスモーダルな相互作用をほとんど見落としている。
本稿では,視覚的・テキスト的両モードの対向的摂動を同時に導入する,JMTFA(Joint Multimodal Transformer Feature Attack)を提案する。
論文 参考訳(メタデータ) (2024-08-24T04:31:37Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective [42.04728834962863]
CLIPのような事前訓練された視覚言語モデル(VLM)は、様々な下流タスクにまたがる例外的な一般化を示している。
近年の研究では、テキストベースおよびマルチモーダル攻撃に対する防御がほとんど未調査のままであり、敵攻撃に対する脆弱性が明らかにされている。
本研究は,画像,テキスト,マルチモーダル入力を標的とした攻撃に対して,VLMの対角的堅牢性を改善するための最初の総合的研究である。
論文 参考訳(メタデータ) (2024-04-30T06:34:21Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。
我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。
我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文 参考訳(メタデータ) (2020-07-29T08:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。