論文の概要: SHIELD: Classifier-Guided Prompting for Robust and Safer LVLMs
- arxiv url: http://arxiv.org/abs/2510.13190v1
- Date: Wed, 15 Oct 2025 06:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.521427
- Title: SHIELD: Classifier-Guided Prompting for Robust and Safer LVLMs
- Title(参考訳): ShiELD:ロバスト・サファーLVLM用クラシファイタガイドプロンプティング
- Authors: Juan Ren, Mark Dras, Usman Naseem,
- Abstract要約: ShiELDは軽量でモデルに依存しない事前処理フレームワークである。
厳密な安全分類と、カテゴリー固有のガイダンスと明示的な行動の2つがある。
我々の方法はプラグアンドプレイであり、無視できるオーバーヘッドを発生させ、新しい攻撃タイプに容易に拡張できる。
- 参考スコア(独自算出の注目度): 17.28260523039769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) unlock powerful multimodal reasoning but also expand the attack surface, particularly through adversarial inputs that conceal harmful goals in benign prompts. We propose SHIELD, a lightweight, model-agnostic preprocessing framework that couples fine-grained safety classification with category-specific guidance and explicit actions (Block, Reframe, Forward). Unlike binary moderators, SHIELD composes tailored safety prompts that enforce nuanced refusals or safe redirection without retraining. Across five benchmarks and five representative LVLMs, SHIELD consistently lowers jailbreak and non-following rates while preserving utility. Our method is plug-and-play, incurs negligible overhead, and is easily extendable to new attack types -- serving as a practical safety patch for both weakly and strongly aligned LVLMs.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は強力なマルチモーダル推論をアンロックするが、特に悪質なプロンプトで有害な目標を隠蔽する敵の入力によって攻撃面を拡大する。
カテゴリ固有のガイダンスと明示的なアクション(Block, Reframe, Forward)を微粒な安全分類と組み合わせた,軽量でモデルに依存しない事前処理フレームワークShielDを提案する。
バイナリモデレーターとは異なり、ShielDは、微妙な拒絶や安全なリダイレクトをリトレーニングすることなく実施する、カスタマイズされた安全プロンプトを構成する。
5つのベンチマークと5つの代表的なLVLMで、ShielDは実用性を維持しながらジェイルブレイクと非フォロー率を一貫して下げている。
我々の方法はプラグアンドプレイであり、オーバーヘッドを無視し、新しい攻撃タイプに容易に拡張できる。
関連論文リスト
- Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models [20.42976162135529]
大規模言語モデル(LLM)は、仮想アシスタント、自動コード生成、科学研究など、さまざまな領域で広く使われている。
我々は,与えられた安全対応LLMの安全トリガトークンを識別し,明示的に復号する,シンプルで効果的な防衛アルゴリズムであるtextttD-STT を提案する。
論文 参考訳(メタデータ) (2025-05-12T01:26:50Z) - VLMGuard-R1: Proactive Safety Alignment for VLMs via Reasoning-Driven Prompt Optimization [42.47044071065563]
VLMGuard-R1は、ユーザ入力を推論誘導リライタによって洗練するプロアクティブフレームワークである。
VLMGuard-R1はSIUOベンチマークで5つのモデルの平均安全性を43.59%向上させた。
論文 参考訳(メタデータ) (2025-04-17T05:46:41Z) - LightDefense: A Lightweight Uncertainty-Driven Defense against Jailbreaks via Shifted Token Distribution [84.2846064139183]
大規模言語モデル(LLM)は、脱獄プロンプトからの脅威に直面している。
ホワイトボックスモデルを対象とした軽量防衛機構であるLightDefenseを提案する。
論文 参考訳(メタデータ) (2025-04-02T09:21:26Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。