論文の概要: Activation Steering Meets Preference Optimization: Defense Against Jailbreaks in Vision Language Models
- arxiv url: http://arxiv.org/abs/2509.00373v1
- Date: Sat, 30 Aug 2025 06:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.201054
- Title: Activation Steering Meets Preference Optimization: Defense Against Jailbreaks in Vision Language Models
- Title(参考訳): アクティベーションステアリング - 視覚言語モデルにおけるジェイルブレイクに対する防御
- Authors: Sihao Wu, Gaojie Jin, Wei Huang, Jianhong Wang, Xiaowei Huang,
- Abstract要約: 視覚言語モデル(VLM)は、理解と推論のために視覚情報とテキスト情報を統合するという印象的な能力を示しているが、敵の攻撃に対して非常に脆弱である。
モデルロバスト性を高めるために,アクティベーションレベルの介入とポリシレベルの最適化を組み合わせた新しい2段階防衛フレームワークであるtextitSequence-Level Preference Optimization for VLM (textitSPO-VLM)を提案する。
- 参考スコア(独自算出の注目度): 25.261947712485107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) have demonstrated impressive capabilities in integrating visual and textual information for understanding and reasoning, but remain highly vulnerable to adversarial attacks. While activation steering has emerged as a promising defence, existing approaches often rely on task-specific contrastive prompts to extract harmful directions, which exhibit suboptimal performance and can degrade visual grounding performance. To address these limitations, we propose \textit{Sequence-Level Preference Optimization} for VLM (\textit{SPO-VLM}), a novel two-stage defense framework that combines activation-level intervention with policy-level optimization to enhance model robustness. In \textit{Stage I}, we compute adaptive layer-specific steering vectors from diverse data sources, enabling generalized suppression of harmful behaviors during inference. In \textit{Stage II}, we refine these steering vectors through a sequence-level preference optimization process. This stage integrates automated toxicity assessment, as well as visual-consistency rewards based on caption-image alignment, to achieve safe and semantically grounded text generation. The two-stage structure of SPO-VLM balances efficiency and effectiveness by combining a lightweight mitigation foundation in Stage I with deeper policy refinement in Stage II. Extensive experiments shown SPO-VLM enhances safety against attacks via activation steering and preference optimization, while maintaining strong performance on benign tasks without compromising visual understanding capabilities. We will release our code, model weights, and evaluation toolkit to support reproducibility and future research. \textcolor{red}{Warning: This paper may contain examples of offensive or harmful text and images.}
- Abstract(参考訳): 視覚言語モデル(VLM)は、理解と推論のために視覚情報とテキスト情報を統合するという印象的な能力を示しているが、敵の攻撃に対して非常に脆弱である。
アクティベーションステアリングは有望な防御法として現れてきたが、既存のアプローチは、しばしばタスク固有のコントラスト的プロンプトに頼って有害な方向を抽出し、最適以下の性能を示し、視覚的接地性能を低下させることができる。
これらの制約に対処するため、モデルロバスト性を高めるために、アクティベーションレベルの介入とポリシーレベルの最適化を組み合わせた新しい2段階防衛フレームワークであるVLM (\textit{SPO-VLM}) の \textit{Sequence-Level Preference Optimization} を提案する。
In \textit{Stage I}, we compute Adaptive Layer-specific steering vectors from various data sources, which enables generalized suppresss during inference。
In \textit{Stage II}, we refine these steering vectors through a sequence-level preference optimization process。
この段階は、自動毒性評価とキャプション・イメージアライメントに基づく視覚的一貫性報酬を統合し、安全でセマンティックなテキスト生成を実現する。
SPO-VLMの2段階構造は、第1段階の軽量緩和基盤と第2段階のより深い政策改善を組み合わせ、効率と効率のバランスをとる。
SPO-VLMはアクティベーションステアリングと選好最適化による攻撃に対する安全性を高めつつ、視覚的理解能力を損なうことなく、良質なタスクに対する強い性能を維持しながら、広範囲にわたる実験を行った。
再現性と将来の研究をサポートするために、コード、モデルウェイト、評価ツールキットをリリースします。
\textcolor{red}{Warning: 攻撃的あるいは有害なテキストやイメージの例を含むことができる。
※
関連論文リスト
- Mitigating Hallucination of Large Vision-Language Models via Dynamic Logits Calibration [8.192590936983347]
LVLM(Large Vision-Language Models)はマルチモーダル理解において大きな進歩を見せている。
視覚的な入力に反する幻覚、すなわちテキストの生成によってしばしば妨げられる。
既存のトレーニング不要のデコード戦略には、重大な制限がある。
本稿では,テキスト生成と推論時の視覚的エビデンスを整合させる新しいトレーニングフリーデコードフレームワークであるDynamic Logits (DLC)を紹介する。
論文 参考訳(メタデータ) (2025-06-26T17:35:40Z) - Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。
視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文 参考訳(メタデータ) (2025-05-22T03:00:39Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - Unified Prompt Attack Against Text-to-Image Generation Models [30.24530622359188]
攻撃の観点からT2Iモデルのロバスト性を評価するためのフレームワークであるUPAMを提案する。
UPAMはテキストと視覚の両方に対する攻撃を統合する。
また、効率と効率性を改善するために列挙への依存を克服し、勾配ベースの最適化を可能にする。
論文 参考訳(メタデータ) (2025-02-23T03:36:18Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。