論文の概要: DAVSP: Safety Alignment for Large Vision-Language Models via Deep Aligned Visual Safety Prompt
- arxiv url: http://arxiv.org/abs/2506.09353v1
- Date: Wed, 11 Jun 2025 03:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.277687
- Title: DAVSP: Safety Alignment for Large Vision-Language Models via Deep Aligned Visual Safety Prompt
- Title(参考訳): DAVSP:深視野型視覚安全プロンプトによる大型視線モデルのための安全アライメント
- Authors: Yitong Zhang, Jia Li, Liyi Cai, Ge Li,
- Abstract要約: LVLM(Large Vision-Language Models)は、様々なアプリケーションで顕著な進歩を遂げているが、悪意のあるクエリには弱いままである。
既存のアライメントアプローチは、悪意のあるクエリを効果的に保存しながら、悪意のあるクエリに抵抗することができない。
本稿では、入力画像の周囲にトレーニング可能なパディング領域を付加するDeep Aligned Visual Safety Prompt (DAVSP)を提案する。
- 参考スコア(独自算出の注目度): 27.93001531810986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have achieved impressive progress across various applications but remain vulnerable to malicious queries that exploit the visual modality. Existing alignment approaches typically fail to resist malicious queries while preserving utility on benign ones effectively. To address these challenges, we propose Deep Aligned Visual Safety Prompt (DAVSP), which is built upon two key innovations. First, we introduce the Visual Safety Prompt, which appends a trainable padding region around the input image. It preserves visual features and expands the optimization space. Second, we propose Deep Alignment, a novel approach to train the visual safety prompt through supervision in the model's activation space. It enhances the inherent ability of LVLMs to perceive malicious queries, achieving deeper alignment than prior works. Extensive experiments across five benchmarks on two representative LVLMs demonstrate that DAVSP effectively resists malicious queries while preserving benign input utility. Furthermore, DAVSP exhibits great cross-model generation ability. Ablation studies further reveal that both the Visual Safety Prompt and Deep Alignment are essential components, jointly contributing to its overall effectiveness. The code is publicly available at https://github.com/zhangyitonggg/DAVSP.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、様々なアプリケーションで顕著な進歩を遂げているが、視覚的モダリティを利用する悪意のあるクエリには弱いままである。
既存のアライメントアプローチは通常、悪意のあるクエリに抵抗するのに失敗し、良質なクエリのユーティリティを効果的に保持する。
これらの課題に対処するため、我々は2つの重要なイノベーションに基づいて構築されたDeep Aligned Visual Safety Prompt (DAVSP)を提案する。
まず、入力画像の周囲にトレーニング可能なパディング領域を付加するVisual Safety Promptを紹介する。
視覚的特徴を保存し、最適化空間を拡張する。
第2に、モデルのアクティベーション空間の監督を通じて視覚的安全性を訓練する新しいアプローチであるDeep Alignmentを提案する。
悪意のあるクエリを知覚するLVLMの本質的な能力を高め、以前の作業よりも深いアライメントを実現する。
2つの代表的なLVLM上での5つのベンチマークによる大規模な実験により、DAVSPは良質な入力ユーティリティを保ちながら悪意のあるクエリに効果的に抵抗することを示した。
さらに、DAVSPは優れたクロスモデル生成能力を示す。
アブレーション研究により、ビジュアルセーフティ・プロンプトとディープアライメントの両方が必須成分であり、その全体的な効果に共同で寄与していることが明らかとなった。
コードはhttps://github.com/zhangyitonggg/DAVSPで公開されている。
関連論文リスト
- Security Tensors as a Cross-Modal Bridge: Extending Text-Aligned Safety to Vision in LVLM [40.83149588857177]
大規模視覚言語モデル(LVLM)は、複数モーダル入力を処理する視覚モジュールと整列した大言語モデル(LLM)を統合する。
セキュリティテンソル(Security tensor) - テキストや視覚のモダリティを通じて推論中に適用されるトレーニング可能な入力ベクトル。
論文 参考訳(メタデータ) (2025-07-28T16:59:53Z) - Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。
視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文 参考訳(メタデータ) (2025-05-22T03:00:39Z) - Black-Box Visual Prompt Engineering for Mitigating Object Hallucination in Large Vision Language Models [16.743274500376657]
大きな視覚言語モデル(LVLM)は、しばしばオブジェクト幻覚に悩まされ、その信頼性を損なう。
我々は,モデル内部へのアクセスを必要とせずにLVLM応答を向上させる最適なVPを特定するために,BBVPE(Black-Box Visual Prompt Engineering)を提案する。
提案手法では,候補となるVPのプールを用いて,与えられた入力画像に対して最も有効なVPを動的に選択するルータモデルを訓練する。
論文 参考訳(メタデータ) (2025-04-30T11:58:30Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - Effective and Efficient Adversarial Detection for Vision-Language Models via A Single Vector [97.92369017531038]
Diverse hArmful Responses (RADAR) を用いた新しい laRge-scale Adervsarial 画像データセットを構築した。
そこで我々は,視覚言語モデル (VLM) の隠れ状態から抽出した1つのベクトルを利用して,入力中の良質な画像に対して対向画像を検出する,新しいiN時間埋め込み型AdveRSarial Image Detectction (NEARSIDE) 法を開発した。
論文 参考訳(メタデータ) (2024-10-30T10:33:10Z) - ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time [12.160713548659457]
対向的な視覚入力は、容易にVLM防御機構をバイパスすることができる。
本稿では,入力された視覚的内容と出力応答を評価する2相推論時間アライメントフレームワークを提案する。
実験の結果, ETAは無害性, 有用性, 効率の点で, ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T07:21:43Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Improving Adversarial Robustness via Decoupled Visual Representation Masking [65.73203518658224]
本稿では,特徴分布の観点から,ロバストな特徴の2つの新しい特性を強調した。
現状の防衛手法は、上記の2つの問題にうまく対処することを目的としている。
具体的には、分離された視覚的表現マスキングに基づく、シンプルだが効果的な防御法を提案する。
論文 参考訳(メタデータ) (2024-06-16T13:29:41Z) - B-AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Black-box Adversarial Visual-Instructions [73.97665608366447]
LVLM(Large Vision-Language Models)は、ユーザからの視覚的指示に応答する上で、大きな進歩を見せている。
画像とテキストを含むこれらの命令は、意図的および意図しない攻撃の両方に影響を受けやすい。
B-AVIBenchは,様々なブラックボックス・アドミラル・ビジュアル・インストラクションに直面する場合のLVLMのロバスト性を解析するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T12:51:07Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing [61.82466976737915]
深層学習は、顔の反偽造の最も効果的な方法の1つとして証明されている。
2つの洞察に基づいて,複数フレームからの提示攻撃を検出する新しい手法を提案する。
提案手法は,5つのベンチマークデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T06:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。