論文の概要: SIA: Enhancing Safety via Intent Awareness for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.16856v1
- Date: Mon, 21 Jul 2025 13:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.692995
- Title: SIA: Enhancing Safety via Intent Awareness for Vision-Language Models
- Title(参考訳): SIA:視覚言語モデルにおけるインテント・アウェアネスによる安全性向上
- Authors: Youngjin Na, Sangheon Jeong, Youngwan Lee,
- Abstract要約: 視覚言語モデル(VLM)は、現実世界のアプリケーションにますます多くデプロイされている。
一見無害な入力が組み合わさると有害な意図が明らかになり、安全でないモデル応答がもたらされる。
SIA(Safety via Intent Awareness)は,マルチモーダル入力における有害な意図を積極的に検出・緩和する,トレーニング不要なプロンプトエンジニアリングフレームワークである。
- 参考スコア(独自算出の注目度): 5.156850255810611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As vision-language models (VLMs) are increasingly deployed in real-world applications, new safety risks arise from the subtle interplay between images and text. In particular, seemingly innocuous inputs can combine to reveal harmful intent, leading to unsafe model responses. Despite increasing attention to multimodal safety, previous approaches based on post hoc filtering or static refusal prompts struggle to detect such latent risks, especially when harmfulness emerges only from the combination of inputs. We propose SIA (Safety via Intent Awareness), a training-free prompt engineering framework that proactively detects and mitigates harmful intent in multimodal inputs. SIA employs a three-stage reasoning process: (1) visual abstraction via captioning, (2) intent inference through few-shot chain-of-thought prompting, and (3) intent-conditioned response refinement. Rather than relying on predefined rules or classifiers, SIA dynamically adapts to the implicit intent inferred from the image-text pair. Through extensive experiments on safety-critical benchmarks including SIUO, MM-SafetyBench, and HoliSafe, we demonstrate that SIA achieves substantial safety improvements, outperforming prior methods. Although SIA shows a minor reduction in general reasoning accuracy on MMStar, the corresponding safety gains highlight the value of intent-aware reasoning in aligning VLMs with human-centric values.
- Abstract(参考訳): 視覚言語モデル(VLM)が現実世界のアプリケーションにますます導入されるにつれて、画像とテキスト間の微妙な相互作用から新たな安全性のリスクが生じる。
特に、一見無害な入力は、有害な意図を明らかにするために結合し、安全でないモデル応答を引き起こす。
マルチモーダル安全性に注目が集まる一方で、ポストホックフィルタリングや静的拒絶に基づく従来のアプローチは、特に入力の組み合わせによってのみ有害性が出現した場合に、そのような潜伏リスクを検出するのに苦労する。
SIA(Safety via Intent Awareness)は,マルチモーダル入力における有害な意図を積極的に検出・緩和する,トレーニング不要なプロンプトエンジニアリングフレームワークである。
SIAは、(1)キャプションによる視覚的抽象化、(2)思考の連鎖による意図推論、(3)意図条件による応答改善という3段階の推論プロセスを採用している。
事前に定義されたルールや分類器に頼るのではなく、SIAは画像とテキストのペアから推論される暗黙の意図に動的に適応する。
SIUO、MM-SafetyBench、HoliSafeなどの安全クリティカルなベンチマークに関する広範な実験を通じて、SIAが大幅に安全性を向上し、先行手法よりも優れていたことを実証した。
SIAはMMStarの一般的な推論精度をわずかに低下させるが、それに対応する安全性向上はVLMを人間中心の値と整合させる際の意図認識推論の価値を強調している。
関連論文リスト
- Self-Aware Safety Augmentation: Leveraging Internal Semantic Understanding to Enhance Safety in Vision-Language Models [21.961325147038867]
大規模視覚言語モデル(LVLM)は、言語のみのバックボーンと比較して有害な入力に対して脆弱である。
我々はこれらの能力を、言語表現の安全性認識、意味理解、アライメントとして定義する。
これらの知見に触発され,従来の安全指向層に情報的意味表現を投影する技術である textbfSelf-Aware Safety Augmentation (SASA) を提案する。
論文 参考訳(メタデータ) (2025-07-29T09:48:57Z) - The Safety Reminder: A Soft Prompt to Reactivate Delayed Safety Awareness in Vision-Language Models [4.27794555931853]
VLM(Vision-Language Models)は、そのマルチモーダルな性質からユニークな脆弱性に直面しており、敵は安全ガードレールをバイパスし、有害なコンテンツを生成することができる。
The Safety Reminder'は,テキスト生成プロセス中に定期的に注入される学習可能なプロンプトトークンを最適化し,安全意識を高めるソフトプロンプトチューニング手法である。
論文 参考訳(メタデータ) (2025-06-15T12:48:38Z) - HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。
私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。
我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - Seeing the Threat: Vulnerabilities in Vision-Language Models to Adversarial Attack [7.988475248750045]
LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な機能を示す。
従来の敵攻撃がLVLMに埋め込まれた安全機構を回避できる理由を明らかにするために,系統的な表現解析を行う。
LVLMに対する敵攻撃のための2段階評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T04:43:39Z) - SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。