論文の概要: VLMGuard-R1: Proactive Safety Alignment for VLMs via Reasoning-Driven Prompt Optimization
- arxiv url: http://arxiv.org/abs/2504.12661v1
- Date: Thu, 17 Apr 2025 05:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:39:27.029511
- Title: VLMGuard-R1: Proactive Safety Alignment for VLMs via Reasoning-Driven Prompt Optimization
- Title(参考訳): VLMGuard-R1:Reasoning-Driven Prompt OptimizationによるVLMの能動的安全アライメント
- Authors: Menglan Chen, Xianghe Pang, Jingjing Dong, WenHao Wang, Yaxin Du, Siheng Chen,
- Abstract要約: VLMGuard-R1は、ユーザ入力を推論誘導リライタによって洗練するプロアクティブフレームワークである。
VLMGuard-R1はSIUOベンチマークで5つのモデルの平均安全性を43.59%向上させた。
- 参考スコア(独自算出の注目度): 29.192704030072516
- License:
- Abstract: Aligning Vision-Language Models (VLMs) with safety standards is essential to mitigate risks arising from their multimodal complexity, where integrating vision and language unveils subtle threats beyond the reach of conventional safeguards. Inspired by the insight that reasoning across modalities is key to preempting intricate vulnerabilities, we propose a novel direction for VLM safety: multimodal reasoning-driven prompt rewriting. To this end, we introduce VLMGuard-R1, a proactive framework that refines user inputs through a reasoning-guided rewriter, dynamically interpreting text-image interactions to deliver refined prompts that bolster safety across diverse VLM architectures without altering their core parameters. To achieve this, we devise a three-stage reasoning pipeline to synthesize a dataset that trains the rewriter to infer subtle threats, enabling tailored, actionable responses over generic refusals. Extensive experiments across three benchmarks with five VLMs reveal that VLMGuard-R1 outperforms four baselines. In particular, VLMGuard-R1 achieves a remarkable 43.59\% increase in average safety across five models on the SIUO benchmark.
- Abstract(参考訳): ビジョン・ランゲージ・モデル(VLM)と安全基準の調整は、視覚と言語の統合が従来の安全ガードの範囲を超えて微妙な脅威を露呈する多モーダルな複雑さから生じるリスクを軽減するために不可欠である。
複雑な脆弱性をプリエンプションする上で,モダリティを越えた推論が鍵となるという洞察に刺激されて,マルチモーダル推論によるプロンプト書き換えという,VLMの安全性のための新たな方向性を提案する。
この目的のために、我々はVLMGuard-R1というプロアクティブなフレームワークを導入し、ユーザ入力を推論誘導リライタによって洗練し、動的にテキストと画像の相互作用を解釈し、様々なVLMアーキテクチャの安全性を、コアパラメータを変更することなく向上させるプロンプトを提供する。
これを実現するために、3段階の推論パイプラインを考案し、リライターに微妙な脅威を発生させるよう訓練するデータセットを合成し、汎用的な拒絶に対する調整可能な応答を可能にする。
5つのVLMを持つ3つのベンチマークの大規模な実験により、VLMGuard-R1は4つのベースラインを上回っていることが明らかになった。
特に、VLMGuard-R1はSIUOベンチマークで5つのモデルの平均安全性を43.59倍に向上させた。
関連論文リスト
- VLM-Guard: Safeguarding Vision-Language Models via Fulfilling Safety Alignment Gap [51.287157951953226]
視覚言語モデル(VLM)には、安全性に関する懸念が増している。
VLMはテキストによる安全アライメントを持つLLM上に構築できるが、視覚のモダリティが統合されると容易に損なわれる。
本稿では,VLM の LLM 成分を VLM の安全アライメントの監督に活用する推論時介入戦略 VLM-Guard を提案する。
論文 参考訳(メタデータ) (2025-02-14T08:44:43Z) - Membership Inference Attacks Against Vision-Language Models [24.47069867575367]
VLM(Vision-Language Models)は、例外的なマルチモーダル理解とダイアログ機能を示す。
データ誤用や漏洩のリスクは、ほとんど解明されていない。
本研究では,背景知識の異なるレベルに合わせた4つのメンバーシップ推論手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T05:44:58Z) - RapGuard: Safeguarding Multimodal Large Language Models via Rationale-aware Defensive Prompting [7.0595410083835315]
RapGuardは、シナリオ固有の安全プロンプトを生成するために、マルチモーダル連鎖推論を使用する新しいフレームワークである。
RapGuardは最先端の安全性能を実現し、応答の品質を低下させることなく有害なコンテンツを著しく削減する。
論文 参考訳(メタデータ) (2024-12-25T08:31:53Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - Unraveling and Mitigating Safety Alignment Degradation of Vision-Language Models [26.83278034227966]
VLM(Vision-Language Models)の安全アライメント能力は、視覚モジュールの統合によって劣化しがちである。
VLMに視覚モダリティを導入する際に現れる表現ギャップから課題が生じることを示す。
安全アライメントの劣化を低減するため,Cross-Modality Representation Manipulation (CMRM)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:59:31Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Safety Alignment for Vision Language Models [21.441662865727448]
安全モジュールの追加により視覚言語モデル(VLM)の視覚的モダリティ安全アライメントを強化する。
提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。
論文 参考訳(メタデータ) (2024-05-22T12:21:27Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。