論文の概要: Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images
- arxiv url: http://arxiv.org/abs/2603.08486v1
- Date: Mon, 09 Mar 2026 15:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.29525
- Title: Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images
- Title(参考訳): 視覚的自己充足アライメント:脅威関連画像による安全指向の人物形成
- Authors: Qishun Yang, Shu Yang, Lijie Hu, Di Wang,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は、視覚的な入力が有害な出力を可能にする、安全性のミスアライメントに直面している。
創発的不整合に基づく自己充満機構に着想を得て,視覚自己充満アライメント(VSFA)を提案する。
VSFAファイントゥネス視覚言語モデル(VLM)は、脅威関連画像を中心に構築された中立的なVQAタスクにおいて、安全ラベルを含まない。
- 参考スコア(独自算出の注目度): 15.316817046650208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) face safety misalignment, where visual inputs enable harmful outputs. To address this, existing methods require explicit safety labels or contrastive data; yet, threat-related concepts are concrete and visually depictable, while safety concepts, like helpfulness, are abstract and lack visual referents. Inspired by the Self-Fulfilling mechanism underlying emergent misalignment, we propose Visual Self-Fulfilling Alignment (VSFA). VSFA fine-tunes vision-language models (VLMs) on neutral VQA tasks constructed around threat-related images, without any safety labels. Through repeated exposure to threat-related visual content, models internalize the implicit semantics of vigilance and caution, shaping safety-oriented personas. Experiments across multiple VLMs and safety benchmarks demonstrate that VSFA reduces the attack success rate, improves response quality, and mitigates over-refusal while preserving general capabilities. Our work extends the self-fulfilling mechanism from text to visual modalities, offering a label-free approach to VLMs alignment.
- Abstract(参考訳): MLLM(Multimodal large language model)は、視覚入力が有害な出力を可能にする、安全性のミスアライメントに直面している。
既存の方法は明確な安全ラベルや対照的なデータを必要とするが、脅威に関連する概念は具体的かつ視覚的に描写可能であり、安全性の概念は有用性のように抽象的で視覚的な参照が欠如している。
創発的不整合に基づく自己充満機構に着想を得て,視覚自己充満アライメント(VSFA)を提案する。
VSFAファイントゥネス視覚言語モデル(VLM)は、脅威関連画像を中心に構築された中立的なVQAタスクにおいて、安全ラベルを含まない。
脅威関連視覚コンテンツへの繰り返しの露出を通じて、モデルは警戒と注意の暗黙的な意味論を内部化し、安全指向のペルソナを形成する。
複数のVLMとセーフティベンチマークでの実験では、VSFAは攻撃成功率を低減し、応答品質を改善し、一般的な機能を維持しながら過剰な拒絶を軽減している。
我々の研究は、VLMのアライメントに対するラベルなしアプローチを提供しながら、テキストから視覚的モダリティへの自己充足メカニズムを拡張した。
関連論文リスト
- Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility [26.564913442069866]
視覚言語モデル(VLM)は、大きな言語モデル(LLM)の推論能力を、モード間設定に拡張する。
既存の防衛は、安全性の微調整や攻撃的なトークン操作に頼っており、相当な訓練コストや性能の大幅な低下を招いている。
安全校正のための軽量かつトレーニング不要なフレームワークであるリスク意識注入(RAI)を提案する。
論文 参考訳(メタデータ) (2026-02-03T11:26:05Z) - Security Tensors as a Cross-Modal Bridge: Extending Text-Aligned Safety to Vision in LVLM [40.83149588857177]
大規模視覚言語モデル(LVLM)は、複数モーダル入力を処理する視覚モジュールと整列した大言語モデル(LLM)を統合する。
セキュリティテンソル(Security tensor) - テキストや視覚のモダリティを通じて推論中に適用されるトレーニング可能な入力ベクトル。
論文 参考訳(メタデータ) (2025-07-28T16:59:53Z) - The Safety Reminder: A Soft Prompt to Reactivate Delayed Safety Awareness in Vision-Language Models [4.27794555931853]
VLM(Vision-Language Models)は、そのマルチモーダルな性質からユニークな脆弱性に直面しており、敵は安全ガードレールをバイパスし、有害なコンテンツを生成することができる。
The Safety Reminder'は,テキスト生成プロセス中に定期的に注入される学習可能なプロンプトトークンを最適化し,安全意識を高めるソフトプロンプトチューニング手法である。
論文 参考訳(メタデータ) (2025-06-15T12:48:38Z) - HoliSafe: Holistic Safety Benchmarking and Modeling for Vision-Language Model [58.12612140992874]
我々は、安全で安全でない5つの画像テキストの組み合わせにまたがる、全体的な安全データセットとベンチマークである textbfHoliSafeを紹介した。
また,入力画像の有害性を評価するために,視覚ガードモジュール(VGM)を用いて,VLMの安全性を高めるための新しいモジュラーフレームワークを提案する。
実験により、HoliSafeでトレーニングされたVGMを使用したSafe-VLMは、複数のVLMベンチマークで最先端の安全性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。
攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。
普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文 参考訳(メタデータ) (2025-05-02T06:51:11Z) - Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning [43.209846711845536]
現在のアライメント戦略は、キュレートされたデータセットによる監視された安全性の微調整に依存している。
教師付き微調整は,表面テクスチャパターンと安全応答の急激な相関を必然的に強化することを示す。
マシン・アンラーニング(MU)は、教師付き安全微調整の強力な代替手段であることを示す。
論文 参考訳(メタデータ) (2025-03-14T19:52:08Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。