論文の概要: DiffCAP: Diffusion-based Cumulative Adversarial Purification for Vision Language Models
- arxiv url: http://arxiv.org/abs/2506.03933v1
- Date: Wed, 04 Jun 2025 13:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.351439
- Title: DiffCAP: Diffusion-based Cumulative Adversarial Purification for Vision Language Models
- Title(参考訳): DiffCAP:視覚言語モデルのための拡散に基づく累積逆浄化
- Authors: Jia Fu, Yongtao Wu, Yihang Chen, Kunyu Peng, Xiao Zhang, Volkan Cevher, Sepideh Pashami, Anders Holst,
- Abstract要約: 視覚言語モデル(VLM)はマルチモーダル理解において顕著な能力を示しているが、摂動への感受性は現実世界のアプリケーションにおける信頼性に重大な脅威をもたらす。
本稿では,VLMにおける敵の汚職を効果的に中和できる新しい拡散型浄化戦略であるDiffCAPを紹介する。
- 参考スコア(独自算出の注目度): 45.126261544696185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) have shown remarkable capabilities in multimodal understanding, yet their susceptibility to perturbations poses a significant threat to their reliability in real-world applications. Despite often being imperceptible to humans, these perturbations can drastically alter model outputs, leading to erroneous interpretations and decisions. This paper introduces DiffCAP, a novel diffusion-based purification strategy that can effectively neutralize adversarial corruptions in VLMs. We observe that adding minimal noise to an adversarially corrupted image significantly alters its latent embedding with respect to VLMs. Building on this insight, DiffCAP cumulatively injects random Gaussian noise into adversarially perturbed input data. This process continues until the embeddings of two consecutive noisy images reach a predefined similarity threshold, indicating a potential approach to neutralize the adversarial effect. Subsequently, a pretrained diffusion model is employed to denoise the stabilized image, recovering a clean representation suitable for the VLMs to produce an output. Through extensive experiments across six datasets with three VLMs under varying attack strengths in three task scenarios, we show that DiffCAP consistently outperforms existing defense techniques by a substantial margin. Notably, DiffCAP significantly reduces both hyperparameter tuning complexity and the required diffusion time, thereby accelerating the denoising process. Equipped with strong theoretical and empirical support, DiffCAP provides a robust and practical solution for securely deploying VLMs in adversarial environments.
- Abstract(参考訳): 視覚言語モデル(VLM)はマルチモーダル理解において顕著な能力を示しているが、摂動への感受性は現実世界のアプリケーションにおける信頼性に重大な脅威をもたらす。
しばしば人間には知覚できないが、これらの摂動はモデル出力を劇的に変えることができ、誤った解釈と決定につながる。
本稿では,VLMにおける敵の汚職を効果的に中和できる新しい拡散型浄化戦略であるDiffCAPを紹介する。
逆向きに劣化した画像に最小限のノイズを加えると、VLMに対する遅延埋め込みが著しく変化する。
この知見に基づいて、DiffCAPは逆摂動入力データにランダムなガウスノイズを累積的に注入する。
この過程は、2つの連続したノイズ画像の埋め込みが予め定義された類似性しきい値に達するまで続き、敵対効果を中和する潜在的アプローチを示す。
次に、予め訓練された拡散モデルを用いて、安定化された画像を復調し、VLMに適したクリーンな表現を復元して出力を生成する。
3つのタスクシナリオにおいて、攻撃強度が異なる3つのVLMを持つ6つのデータセットにわたる広範囲な実験を通して、DiffCAPが既存の防御技術よりも大幅に優れていることを示す。
特に、DiffCAPはハイパーパラメータチューニングの複雑さと必要な拡散時間の両方を著しく低減し、デノナイジングプロセスを加速させる。
DiffCAPは強力な理論的および実証的なサポートを備えており、敵の環境でVLMを安全にデプロイするための堅牢で実用的なソリューションを提供する。
関連論文リスト
- Beyond Classification: Evaluating Diffusion Denoised Smoothing for Security-Utility Trade off [4.497768222083102]
Diffusion Denoized Smoothingは、モデルロバスト性を高めるための有望なテクニックとして登場している。
4つの異なる下流タスクを持つ3つのデータセットを3つの異なる逆攻撃アルゴリズムで解析する。
歪みのないクリーニング画像への高ノイズ拡散は、性能を最大57%低下させる。
我々は,拡散過程自体をターゲットとした新たな攻撃戦略を導入し,低雑音体制における防御を回避した。
論文 参考訳(メタデータ) (2025-05-21T14:49:24Z) - Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks [10.44351773183656]
VLM(Vision-Language Models)は、ノイズや破損した画像を処理する際に、ジェイルブレイク攻撃に対して脆弱である。
この課題に対処するために、画像とテキストのペアが一致しないマルチモーダル安全データセットであるRobust-VLGuardを提案する。
より強力な最適化に基づく視覚摂動攻撃のための拡散モデルを用いたDiffPure-VLMを提案する。
論文 参考訳(メタデータ) (2025-04-02T02:35:19Z) - Temporal-Consistent Video Restoration with Pre-trained Diffusion Models [51.47188802535954]
ビデオ復元(VR)は、劣化したビデオから高品質なビデオを復元することを目的としている。
事前訓練拡散モデル(DM)を用いた最近のゼロショットVR法は,逆拡散時の近似誤差と時間的整合性の欠如に悩まされている。
本稿では,DMのシード空間におけるビデオフレームを直接パラメータ化し,近似誤差を排除した新しいMAP(Posterior Maximum)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:41:56Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - InpDiffusion: Image Inpainting Localization via Conditional Diffusion Models [10.213390634031049]
現在のIIL法は2つの大きな課題に直面している。
拡散モデルを用いた条件付きマスク生成タスクとしてIILを扱う新しいパラダイムを提案する。
我々の手法であるInpDiffusionは、画像意味条件の統合によって強化された復調過程を利用して、予測を段階的に洗練する。
論文 参考訳(メタデータ) (2025-01-06T07:32:12Z) - E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models [15.270657838960114]
拡散モデルは、視覚的生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立されてきた。
最終生成サンプルから初期雑音への直接最適化を実現する新しいエンドツーエンド学習パラダイムを提案する。
Fr'eche't Inception Distance (FID) と CLIP のスコアは,サンプリングステップが少なくても大幅に向上する。
論文 参考訳(メタデータ) (2024-12-30T16:06:31Z) - Digging into contrastive learning for robust depth estimation with diffusion models [55.62276027922499]
そこで我々はD4RDと呼ばれる新しい頑健な深度推定法を提案する。
複雑な環境での性能劣化を軽減するために、拡散モデルに適した独自のコントラスト学習モードを備えている。
実験では、D4RDは合成汚職データセットや現実世界の気象条件に関する最先端のソリューションを超越している。
論文 参考訳(メタデータ) (2024-04-15T14:29:47Z) - Adv-Diffusion: Imperceptible Adversarial Face Identity Attack via Latent
Diffusion Model [61.53213964333474]
本稿では,生の画素空間ではなく,潜在空間における非知覚的対角的アイデンティティ摂動を生成できる統一的なフレームワークAdv-Diffusionを提案する。
具体的には,周囲のセマンティックな摂動を生成するために,個人性に敏感な条件付き拡散生成モデルを提案する。
設計された適応強度に基づく対向摂動アルゴリズムは、攻撃の伝達性とステルス性の両方を確保することができる。
論文 参考訳(メタデータ) (2023-12-18T15:25:23Z) - CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion
Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。
カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文 参考訳(メタデータ) (2023-05-29T07:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。