論文の概要: DAVSP: Safety Alignment for Large Vision-Language Models via Deep Aligned Visual Safety Prompt
- arxiv url: http://arxiv.org/abs/2506.09353v1
- Date: Wed, 11 Jun 2025 03:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.277687
- Title: DAVSP: Safety Alignment for Large Vision-Language Models via Deep Aligned Visual Safety Prompt
- Title(参考訳): DAVSP:深視野型視覚安全プロンプトによる大型視線モデルのための安全アライメント
- Authors: Yitong Zhang, Jia Li, Liyi Cai, Ge Li,
- Abstract要約: LVLM(Large Vision-Language Models)は、様々なアプリケーションで顕著な進歩を遂げているが、悪意のあるクエリには弱いままである。
既存のアライメントアプローチは、悪意のあるクエリを効果的に保存しながら、悪意のあるクエリに抵抗することができない。
本稿では、入力画像の周囲にトレーニング可能なパディング領域を付加するDeep Aligned Visual Safety Prompt (DAVSP)を提案する。
- 参考スコア(独自算出の注目度): 27.93001531810986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved impressive progress across various applications but remain vulnerable to malicious queries that exploit the visual modality. Existing alignment approaches typically fail to resist malicious queries while preserving utility on benign ones effectively. To address these challenges, we propose Deep Aligned Visual Safety Prompt (DAVSP), which is built upon two key innovations. First, we introduce the Visual Safety Prompt, which appends a trainable padding region around the input image. It preserves visual features and expands the optimization space. Second, we propose Deep Alignment, a novel approach to train the visual safety prompt through supervision in the model's activation space. It enhances the inherent ability of LVLMs to perceive malicious queries, achieving deeper alignment than prior works. Extensive experiments across five benchmarks on two representative LVLMs demonstrate that DAVSP effectively resists malicious queries while preserving benign input utility. Furthermore, DAVSP exhibits great cross-model generation ability. Ablation studies further reveal that both the Visual Safety Prompt and Deep Alignment are essential components, jointly contributing to its overall effectiveness. The code is publicly available at https://github.com/zhangyitonggg/DAVSP.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、様々なアプリケーションで顕著な進歩を遂げているが、視覚的モダリティを利用する悪意のあるクエリには弱いままである。
既存のアライメントアプローチは通常、悪意のあるクエリに抵抗するのに失敗し、良質なクエリのユーティリティを効果的に保持する。
これらの課題に対処するため、我々は2つの重要なイノベーションに基づいて構築されたDeep Aligned Visual Safety Prompt (DAVSP)を提案する。
まず、入力画像の周囲にトレーニング可能なパディング領域を付加するVisual Safety Promptを紹介する。
視覚的特徴を保存し、最適化空間を拡張する。
第2に、モデルのアクティベーション空間の監督を通じて視覚的安全性を訓練する新しいアプローチであるDeep Alignmentを提案する。
悪意のあるクエリを知覚するLVLMの本質的な能力を高め、以前の作業よりも深いアライメントを実現する。
2つの代表的なLVLM上での5つのベンチマークによる大規模な実験により、DAVSPは良質な入力ユーティリティを保ちながら悪意のあるクエリに効果的に抵抗することを示した。
さらに、DAVSPは優れたクロスモデル生成能力を示す。
アブレーション研究により、ビジュアルセーフティ・プロンプトとディープアライメントの両方が必須成分であり、その全体的な効果に共同で寄与していることが明らかとなった。
コードはhttps://github.com/zhangyitonggg/DAVSPで公開されている。
関連論文リスト
- Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。
視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文 参考訳(メタデータ) (2025-05-22T03:00:39Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - Effective and Efficient Adversarial Detection for Vision-Language Models via A Single Vector [97.92369017531038]
Diverse hArmful Responses (RADAR) を用いた新しい laRge-scale Adervsarial 画像データセットを構築した。
そこで我々は,視覚言語モデル (VLM) の隠れ状態から抽出した1つのベクトルを利用して,入力中の良質な画像に対して対向画像を検出する,新しいiN時間埋め込み型AdveRSarial Image Detectction (NEARSIDE) 法を開発した。
論文 参考訳(メタデータ) (2024-10-30T10:33:10Z) - ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time [12.160713548659457]
対向的な視覚入力は、容易にVLM防御機構をバイパスすることができる。
本稿では,入力された視覚的内容と出力応答を評価する2相推論時間アライメントフレームワークを提案する。
実験の結果, ETAは無害性, 有用性, 効率の点で, ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T07:21:43Z) - B-AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Black-box Adversarial Visual-Instructions [73.97665608366447]
LVLM(Large Vision-Language Models)は、ユーザからの視覚的指示に応答する上で、大きな進歩を見せている。
画像とテキストを含むこれらの命令は、意図的および意図しない攻撃の両方に影響を受けやすい。
B-AVIBenchは,様々なブラックボックス・アドミラル・ビジュアル・インストラクションに直面する場合のLVLMのロバスト性を解析するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T12:51:07Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing [61.82466976737915]
深層学習は、顔の反偽造の最も効果的な方法の1つとして証明されている。
2つの洞察に基づいて,複数フレームからの提示攻撃を検出する新しい手法を提案する。
提案手法は,5つのベンチマークデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T06:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。