論文の概要: SIA: Enhancing Safety via Intent Awareness for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.16856v2
- Date: Mon, 06 Oct 2025 10:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.374145
- Title: SIA: Enhancing Safety via Intent Awareness for Vision-Language Models
- Title(参考訳): SIA:視覚言語モデルにおけるインテント・アウェアネスによる安全性向上
- Authors: Youngjin Na, Sangheon Jeong, Youngwan Lee, Jian Lee, Dawoon Jeong, Youngman Kim,
- Abstract要約: マルチモーダル入力を組み合わせれば、有害な意図が明らかになり、安全でないモデル出力につながる。
SIA (Safety via Intent Awareness) は、トレーニング不要で意図対応の安全フレームワークである。
SIAは、マルチモーダル入力において有害な意図を積極的に検出し、安全な応答の生成を誘導するためにそれを使用する。
- 参考スコア(独自算出の注目度): 9.208512612467029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing deployment of Vision-Language Models (VLMs) in real-world applications, previously overlooked safety risks are becoming increasingly evident. In particular, seemingly innocuous multimodal inputs can combine to reveal harmful intent, leading to unsafe model outputs. While multimodal safety has received increasing attention, existing approaches often fail to address such latent risks, especially when harmfulness arises only from the interaction between modalities. We propose SIA (Safety via Intent Awareness), a training-free, intent-aware safety framework that proactively detects harmful intent in multimodal inputs and uses it to guide the generation of safe responses. SIA follows a three-stage process: (1) visual abstraction via captioning; (2) intent inference through few-shot chain-of-thought (CoT) prompting; and (3) intent-conditioned response generation. By dynamically adapting to the implicit intent inferred from an image-text pair, SIA mitigates harmful outputs without extensive retraining. Extensive experiments on safety benchmarks, including SIUO, MM-SafetyBench, and HoliSafe, show that SIA consistently improves safety and outperforms prior training-free methods.
- Abstract(参考訳): VLM(Vision-Language Models)が現実世界のアプリケーションに展開するにつれ、これまで見過ごされていた安全性のリスクがますます顕在化している。
特に、一見無害なマルチモーダル入力は、有害な意図を明らかにするために組み合わせられ、安全でないモデル出力につながる。
マルチモーダル安全性は注目されているが、既存のアプローチは、特にモダリティ間の相互作用によってのみ有害性が発生する場合に、そのような潜伏リスクに対処することができないことが多い。
SIA (Safety via Intent Awareness) は、マルチモーダル入力において有害な意図を積極的に検出し、安全応答の生成を誘導する、トレーニング不要で意図認識型の安全フレームワークである。
SIAは、(1)キャプションによる視覚的抽象化、(2)少数ショットチェーン・オブ・シークレット(CoT)プロンプトによる意図推論、(3)意図条件の応答生成という3段階のプロセスに従う。
画像テキスト対から推測される暗黙の意図に動的に適応することにより、SIAは広範囲な再トレーニングなしに有害な出力を軽減できる。
SIUO、MM-SafetyBench、HoliSafeなどの安全性ベンチマークに関する大規模な実験は、SIAが一貫して安全性を改善し、事前のトレーニング不要な手法よりも優れていることを示している。
関連論文リスト
- Self-Aware Safety Augmentation: Leveraging Internal Semantic Understanding to Enhance Safety in Vision-Language Models [21.961325147038867]
大規模視覚言語モデル(LVLM)は、言語のみのバックボーンと比較して有害な入力に対して脆弱である。
我々はこれらの能力を、言語表現の安全性認識、意味理解、アライメントとして定義する。
これらの知見に触発され,従来の安全指向層に情報的意味表現を投影する技術である textbfSelf-Aware Safety Augmentation (SASA) を提案する。
論文 参考訳(メタデータ) (2025-07-29T09:48:57Z) - The Safety Reminder: A Soft Prompt to Reactivate Delayed Safety Awareness in Vision-Language Models [4.27794555931853]
VLM(Vision-Language Models)は、そのマルチモーダルな性質からユニークな脆弱性に直面しており、敵は安全ガードレールをバイパスし、有害なコンテンツを生成することができる。
The Safety Reminder'は,テキスト生成プロセス中に定期的に注入される学習可能なプロンプトトークンを最適化し,安全意識を高めるソフトプロンプトチューニング手法である。
論文 参考訳(メタデータ) (2025-06-15T12:48:38Z) - HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。
私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。
我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - Seeing the Threat: Vulnerabilities in Vision-Language Models to Adversarial Attack [7.988475248750045]
LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な機能を示す。
従来の敵攻撃がLVLMに埋め込まれた安全機構を回避できる理由を明らかにするために,系統的な表現解析を行う。
LVLMに対する敵攻撃のための2段階評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T04:43:39Z) - SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。