論文の概要: PRISM: Robust VLM Alignment with Principled Reasoning for Integrated Safety in Multimodality
- arxiv url: http://arxiv.org/abs/2508.18649v1
- Date: Tue, 26 Aug 2025 03:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.667201
- Title: PRISM: Robust VLM Alignment with Principled Reasoning for Integrated Safety in Multimodality
- Title(参考訳): PRISM:マルチモダリティにおける統合安全のための原理推論を用いたロバストVLMアライメント
- Authors: Nanxi Li, Zhengyue Zhao, Chaowei Xiao,
- Abstract要約: PRISM (Principled Reasoning for Integrated Safety in Multimodality) は、視覚言語モデル(VLM)を協調するシステム2のようなフレームワークである。
我々のフレームワークは2つの重要なコンポーネントで構成されている。PRISM-CoTは安全を意識したチェーン・オブ・プリート推論を教えるデータセットであり、PRISM-DPOはモンテカルロ木探索(MCTS)によって生成される。
総合的な評価は、PRISMの有効性を示し、Qwen2-VLのJailbreakV-28Kの0.15%、LLaVA-1.5のVLBreakの以前のベストメソッドよりも90%改善した。
- 参考スコア(独自算出の注目度): 41.04710068888387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safeguarding vision-language models (VLMs) is a critical challenge, as existing methods often suffer from over-defense, which harms utility, or rely on shallow alignment, failing to detect complex threats that require deep reasoning. To this end, we introduce PRISM (Principled Reasoning for Integrated Safety in Multimodality), a system2-like framework that aligns VLMs by embedding a structured, safety-aware reasoning process. Our framework consists of two key components: PRISM-CoT, a dataset that teaches safety-aware chain-of-thought reasoning, and PRISM-DPO, generated via Monte Carlo Tree Search (MCTS) to further refine this reasoning through Direct Preference Optimization to help obtain a delicate safety boundary. Comprehensive evaluations demonstrate PRISM's effectiveness, achieving remarkably low attack success rates including 0.15% on JailbreakV-28K for Qwen2-VL and 90% improvement over the previous best method on VLBreak for LLaVA-1.5. PRISM also exhibits strong robustness against adaptive attacks, significantly increasing computational costs for adversaries, and generalizes effectively to out-of-distribution challenges, reducing attack success rates to just 8.70% on the challenging multi-image MIS benchmark. Remarkably, this robust defense is achieved while preserving, and in some cases enhancing, model utility. To promote reproducibility, we have made our code, data, and model weights available at https://github.com/SaFoLab-WISC/PRISM.
- Abstract(参考訳): 視覚言語モデル(VLM)の保護は重要な課題であり、既存の手法はしばしば過剰防衛に悩まされ、有用性を損なうか、あるいは浅いアライメントに依存し、深い推論を必要とする複雑な脅威を検出するのに失敗する。
この目的のために,システム2のようなフレームワークであるPRISM(Principled Reasoning for Integrated Safety in Multimodality)を導入する。
PRISM-CoTは,モンテカルロ木探索(MCTS)で生成した安全チェーン・オブ・思想推論のデータセットである。
総合的な評価は、PRISMの有効性を示し、Qwen2-VLのJailbreakV-28Kの0.15%、LLaVA-1.5のVLBreakの以前のベストメソッドよりも90%改善した。
PRISMはまた、適応攻撃に対して強い堅牢性を示し、敵の計算コストを著しく増加させ、分散外の問題に効果的に一般化し、攻撃成功率を挑戦的なマルチイメージMISベンチマークでわずか8.70%まで削減する。
注目すべきは、この堅牢な防御は保存しながら達成され、場合によっては強化されたモデルユーティリティである。
再現性を促進するため、コード、データ、モデルの重み付けをhttps://github.com/SaFoLab-WISC/PRISM.comで公開しました。
関連論文リスト
- Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking [3.718606661938873]
本稿では、ソフトウェアセキュリティからROP(Return-Oriented Programming)技術にインスパイアされた、新しい効果的なジェイルブレイクフレームワークを提案する。
提案手法では,有害な指示を視覚ガジェットの系列に分解する。
以上の結果から,LVLMの構成的推論能力を利用した,重要かつ過小評価された脆弱性が判明した。
論文 参考訳(メタデータ) (2025-07-29T07:13:56Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Adversarial Training for Multimodal Large Language Models against Jailbreak Attacks [17.75247947379804]
MLLM訓練期間中のジェイルブレイク攻撃に対する防御を目的とした,最初の対人訓練パラダイムを提示する。
エンド・ツー・エンドのATフレームワークであるProEAT(Projection Layer Against Adversarial Training)を紹介する。
ProEATは最先端の防御性能を達成し、テキストと画像のモダリティの平均マージン+34%で既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-03-05T14:13:35Z) - Adversarial Robustness in Two-Stage Learning-to-Defer: Algorithms and Guarantees [6.792743621449621]
2段階のL2D(Learning-to-Defer)は、各入力を固定されたメインモデルまたは複数のオフライン専門家のいずれかに割り当てることで、最適なタスクデリゲートを可能にする。
既存のL2Dフレームワークはクリーンな入力を前提としており、クエリ割り当てを操作できる敵の摂動に弱い。
2段階L2Dシステムにおける対向ロバスト性の最初の包括的研究について述べる。
論文 参考訳(メタデータ) (2025-02-03T03:44:35Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。