論文の概要: VLMShield: Efficient and Robust Defense of Vision-Language Models against Malicious Prompts
- arxiv url: http://arxiv.org/abs/2604.06502v1
- Date: Tue, 07 Apr 2026 22:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.262774
- Title: VLMShield: Efficient and Robust Defense of Vision-Language Models against Malicious Prompts
- Title(参考訳): VLMShield: 悪性プロンプトに対する視覚言語モデルの効率的かつロバストな防御
- Authors: Peigui Qi, Kunsheng Tang, Yanpu Yu, Jialin Wu, Yide Song, Wenbo Zhou, Zhicong Huang, Cheng Hong, Weiming Zhang, Nenghai Yu,
- Abstract要約: VLM(Vision-Language Models)は、視覚統合時のアライメントの弱さにより、悪意のあるプロンプト攻撃による重大な安全性上の脆弱性に直面している。
我々は,CLIPが長いテキストを処理し,マルチモーダル情報を統一表現に融合することを可能にするマルチモーダル集約特徴抽出フレームワークを提案する。
我々は,マルチモーダル攻撃をプラグ・アンド・プレイ・ソリューションとして効率的に識別する軽量安全検知器 VLMShield を開発した。
- 参考スコア(独自算出の注目度): 63.54526809319117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) face significant safety vulnerabilities from malicious prompt attacks due to weakened alignment during visual integration. Existing defenses suffer from efficiency and robustness. To address these challenges, we first propose the Multimodal Aggregated Feature Extraction (MAFE) framework that enables CLIP to handle long text and fuse multimodal information into unified representations. Through empirical analysis of MAFE-extracted features, we discover distinct distributional patterns between benign and malicious prompts. Building upon this finding, we develop VLMShield, a lightweight safety detector that efficiently identifies multimodal malicious attacks as a plug-and-play solution. Extensive experiments demonstrate superior performance across multiple dimensions, including robustness, efficiency, and utility. Through our work, we hope to pave the way for more secure multimodal AI deployment. Code is available at [this https URL](https://github.com/pgqihere/VLMShield).
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚統合時のアライメントの弱さにより、悪意のあるプロンプト攻撃による重大な安全性上の脆弱性に直面している。
既存の防御は、効率性と堅牢性に悩まされている。
これらの課題に対処するために、まず、CLIPが長いテキストを処理し、マルチモーダル情報を統一表現に融合することを可能にするマルチモーダル集約特徴抽出(MAFE)フレームワークを提案する。
本研究は,MAFE抽出特徴の実験的解析により,良性プロンプトと悪性プロンプトの異なる分布パターンを同定する。
この発見に基づいて,マルチモーダル攻撃をプラグ・アンド・プレイ・ソリューションとして効率的に識別する軽量安全検知器 VLMShield を開発した。
大規模な実験は、堅牢性、効率性、実用性など、複数の次元にわたって優れたパフォーマンスを示す。
当社の仕事を通じて、よりセキュアなマルチモーダルAIデプロイメントの道を開いたいと考えています。
コードは[ this https URL](https://github.com/pgqihere/VLMShield)で入手できる。
関連論文リスト
- Robust Multimodal Safety via Conditional Decoding [52.92816441364308]
マルチモーダル大規模言語モデル(MLLM)は、有害なクエリが相互モーダル相互作用を悪用した場合、しばしば安全性の低下を経験する。
本稿では,MLLMの内部表現を利用して応答生成前の二項安全トークンを予測する,シンプルな条件付きデコード戦略であるCASAを提案する。
論文 参考訳(メタデータ) (2026-03-31T23:19:50Z) - Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models [54.61181161508336]
MFA(Multi-Faceted Attack)は、防衛装備型ビジョンランゲージモデル(VLM)の一般的な安全性上の脆弱性を明らかにするフレームワークである。
MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。
MFAは58.5%の成功率を獲得し、既存の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-20T07:12:54Z) - CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks [18.971945867485523]
MLLM(Multimodal Large Language Models)は、強い推論と認識能力を達成するが、ジェイルブレイク攻撃に対してますます脆弱になる。
近年の研究では、良心的テキストと画像入力が安全でない意図を共同で表現する暗黙的な攻撃が明らかにされている。
提案するImpForgeは、14のドメインにまたがる多様な暗黙的なサンプルを生成する自動赤チームパイプラインである。
我々はCrossGuardを開発した。CrossGuardは、明示的および暗黙的な脅威に対して堅牢で包括的な防御を提供する意図認識型安全ガードである。
論文 参考訳(メタデータ) (2025-10-20T16:02:34Z) - Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models [11.867355323884217]
本稿では,悪質なプロンプトを視覚的およびテキスト的フラグメントに分解する新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
我々のアプローチは、調整可能な推論の複雑さをサポートし、以前の攻撃よりもはるかに少ないクエリを必要とし、ステルスと効率の両方を可能にします。
論文 参考訳(メタデータ) (2025-06-20T05:30:25Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - RapGuard: Safeguarding Multimodal Large Language Models via Rationale-aware Defensive Prompting [7.0595410083835315]
RapGuardは、シナリオ固有の安全プロンプトを生成するために、マルチモーダル連鎖推論を使用する新しいフレームワークである。
RapGuardは最先端の安全性能を実現し、応答の品質を低下させることなく有害なコンテンツを著しく削減する。
論文 参考訳(メタデータ) (2024-12-25T08:31:53Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。