論文の概要: Adversarial-Guided Diffusion for Multimodal LLM Attacks
- arxiv url: http://arxiv.org/abs/2507.23202v1
- Date: Thu, 31 Jul 2025 02:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.010731
- Title: Adversarial-Guided Diffusion for Multimodal LLM Attacks
- Title(参考訳): マルチモーダルLDM攻撃に対する逆誘導拡散法
- Authors: Chengwei Xia, Fan Ma, Ruijie Quan, Kun Zhan, Yi Yang,
- Abstract要約: 本稿では,敵対的攻撃MLLMに対する敵対的誘導拡散(AGD)アプローチを提案する。
AGDは、逆拡散のノイズ成分にターゲットセマンティクスを注入する。
AGDは、攻撃性能およびいくつかの防御に対するモデル堅牢性において、最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 22.666853714543993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the challenge of generating adversarial image using a diffusion model to deceive multimodal large language models (MLLMs) into generating the targeted responses, while avoiding significant distortion of the clean image. To address the above challenges, we propose an adversarial-guided diffusion (AGD) approach for adversarial attack MLLMs. We introduce adversarial-guided noise to ensure attack efficacy. A key observation in our design is that, unlike most traditional adversarial attacks which embed high-frequency perturbations directly into the clean image, AGD injects target semantics into the noise component of the reverse diffusion. Since the added noise in a diffusion model spans the entire frequency spectrum, the adversarial signal embedded within it also inherits this full-spectrum property. Importantly, during reverse diffusion, the adversarial image is formed as a linear combination of the clean image and the noise. Thus, when applying defenses such as a simple low-pass filtering, which act independently on each component, the adversarial image within the noise component is less likely to be suppressed, as it is not confined to the high-frequency band. This makes AGD inherently robust to variety defenses. Extensive experiments demonstrate that our AGD outperforms state-of-the-art methods in attack performance as well as in model robustness to some defenses.
- Abstract(参考訳): 本稿では, 拡散モデルを用いて, 多モーダル大言語モデル(MLLM)を騙して対象とする応答を生成する上で, クリーンな画像のかなりの歪みを回避し, 逆画像を生成するという課題に対処する。
以上の課題に対処するため,敵攻撃MLLMに対するAGDアプローチを提案する。
本稿では,攻撃効果を確保するために対向誘導雑音を導入する。
我々の設計における重要な観察は、高頻度摂動を直接クリーンイメージに埋め込む従来のほとんどの敵攻撃とは異なり、AGDはターゲットセマンティクスを逆拡散の雑音成分に注入することである。
拡散モデルにおける付加ノイズは全周波数スペクトルにまたがるため、その内部に埋め込まれた逆信号もこのフルスペクトル特性を継承する。
重要なことに、逆拡散中は、クリーン画像とノイズの線形結合として対向画像を形成する。
これにより、各成分に独立して作用する単純な低域フィルタリングなどの防御を施す場合、高周波帯域に限定されないため、ノイズ成分内の対向画像が抑制されにくくなる。
これによりAGDは本質的に様々な防御に堅牢である。
大規模実験により,AGDは攻撃性能およびモデルロバスト性において最先端の手法よりも優れた性能を示した。
関連論文リスト
- Active Adversarial Noise Suppression for Image Forgery Localization [56.98050814363447]
本稿では、敵騒音の攻撃効果を抑制するために、防御的摂動を発生させる敵騒音抑制モジュール(ANSM)を提案する。
我々の知る限りでは、画像フォージェリローカライゼーションタスクにおける敵対的防御の報告としてはこれが初めてである。
論文 参考訳(メタデータ) (2025-06-15T14:53:27Z) - DiffCAP: Diffusion-based Cumulative Adversarial Purification for Vision Language Models [45.126261544696185]
視覚言語モデル(VLM)はマルチモーダル理解において顕著な能力を示しているが、摂動への感受性は現実世界のアプリケーションにおける信頼性に重大な脅威をもたらす。
本稿では,VLMにおける敵の汚職を効果的に中和できる新しい拡散型浄化戦略であるDiffCAPを紹介する。
論文 参考訳(メタデータ) (2025-06-04T13:26:33Z) - Divide and Conquer: Heterogeneous Noise Integration for Diffusion-based Adversarial Purification [75.09791002021947]
既存の浄化法は,前向き拡散過程を通じて一定のノイズを発生させ,その後に逆の処理を行い,クリーンな例を回復させることによって,対向的摂動を妨害することを目的としている。
この方法は、前処理の均一な操作が、対向的摂動と闘いながら通常のピクセルを損なうため、根本的な欠陥がある。
ニューラルネットワークの解釈可能性に基づく異種浄化戦略を提案する。
本手法は,被写体モデルが注目する特定の画素に対して高強度雑音を決定的に印加する一方,残りの画素は低強度雑音のみを被写体とする。
論文 参考訳(メタデータ) (2025-03-03T11:00:25Z) - Pixel Is Not a Barrier: An Effective Evasion Attack for Pixel-Domain Diffusion Models [9.905296922309157]
拡散モデルは高品質な画像合成のための強力な生成モデルとして登場し、それに基づく画像編集技術も数多くある。
従来の研究は、知覚不能な摂動を加えることで、画像の拡散に基づく編集を防ごうとしてきた。
本研究は,UNETの脆弱性を利用した新たな攻撃フレームワークであるAtkPDMと,敵画像の自然性を高めるための潜在最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-08-21T17:56:34Z) - StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。
ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文 参考訳(メタデータ) (2024-08-11T01:22:29Z) - Efficient Generation of Targeted and Transferable Adversarial Examples for Vision-Language Models Via Diffusion Models [17.958154849014576]
大規模視覚言語モデル(VLM)のロバスト性を評価するために、敵対的攻撃を用いることができる。
従来のトランスファーベースの敵攻撃は、高いイテレーション数と複雑なメソッド構造により、高いコストを発生させる。
本稿では, 拡散モデルを用いて, 自然, 制約のない, 対象とする対向的な例を生成するAdvDiffVLMを提案する。
論文 参考訳(メタデータ) (2024-04-16T07:19:52Z) - Robust Real-World Image Super-Resolution against Adversarial Attacks [115.04009271192211]
準知覚不可能な雑音を持つ逆画像サンプルは、深層学習SRモデルを脅かす可能性がある。
本稿では,現実のSRに対して,潜在的な敵対的雑音をランダムに消去する頑健なディープラーニングフレームワークを提案する。
提案手法は敵攻撃に敏感であり,既存のモデルや防御よりも安定なSR結果を示す。
論文 参考訳(メタデータ) (2022-07-31T13:26:33Z) - Guided Diffusion Model for Adversarial Purification [103.4596751105955]
敵攻撃は、様々なアルゴリズムやフレームワークでディープニューラルネットワーク(DNN)を妨害する。
本稿では,GDMP ( Guided diffusion model for purification) と呼ばれる新しい精製法を提案する。
様々なデータセットにわたる包括的実験において,提案したGDMPは,敵対的攻撃によって引き起こされた摂動を浅い範囲に減少させることを示した。
論文 参考訳(メタデータ) (2022-05-30T10:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。