論文の概要: Bridging the Gap in Vision Language Models in Identifying Unsafe Concepts Across Modalities
- arxiv url: http://arxiv.org/abs/2507.11155v1
- Date: Tue, 15 Jul 2025 10:04:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.069111
- Title: Bridging the Gap in Vision Language Models in Identifying Unsafe Concepts Across Modalities
- Title(参考訳): 不安全な概念をモダリティ全体で識別する視覚言語モデルのギャップを埋める
- Authors: Yiting Qu, Michael Backes, Yang Zhang,
- Abstract要約: 視覚言語モデル(VLM)は、安全でない画像や不適切な画像を特定するためにますます応用されている。
テキストや画像など、さまざまなモダリティで提示されたさまざまな安全でない概念を認識できるかどうかはまだ不明である。
VLMの認識(概念認識)とアライメント(倫理的推論)能力の体系的評価を行う。
本稿では,画像から安全でない概念を識別する能力を強化するために,PPOを用いた簡易強化学習(RL)アプローチを提案する。
- 参考スコア(独自算出の注目度): 23.165174248333212
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language models (VLMs) are increasingly applied to identify unsafe or inappropriate images due to their internal ethical standards and powerful reasoning abilities. However, it is still unclear whether they can recognize various unsafe concepts when presented in different modalities, such as text and images. To address this, we first compile the UnsafeConcepts dataset, featuring 75 unsafe concepts, i.e., ``Swastika,'' ``Sexual Harassment,'' and ``Assaults,'' along with associated 1.5K images. We then conduct a systematic evaluation of VLMs' perception (concept recognition) and alignment (ethical reasoning) capabilities. We assess eight popular VLMs and find that, although most VLMs accurately perceive unsafe concepts, they sometimes mistakenly classify these concepts as safe. We also identify a consistent modality gap among open-source VLMs in distinguishing between visual and textual unsafe concepts. To bridge this gap, we introduce a simplified reinforcement learning (RL)-based approach using proximal policy optimization (PPO) to strengthen the ability to identify unsafe concepts from images. Our approach uses reward scores based directly on VLM responses, bypassing the need for collecting human-annotated preference data to train a new reward model. Experimental results show that our approach effectively enhances VLM alignment on images while preserving general capabilities. It outperforms baselines such as supervised fine-tuning (SFT) and direct preference optimization (DPO). We hope our dataset, evaluation findings, and proposed alignment solution contribute to the community's efforts in advancing safe VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)は、その内的倫理的基準と強力な推論能力のために、安全でない画像や不適切な画像を特定するためにますます応用されている。
しかし、テキストや画像など、さまざまなモダリティで提示される際に、さまざまな安全でない概念を認識できるかどうかはまだ不明である。
これを解決するために、まずUnsafeConceptsデータセットをコンパイルし、関連する1.5Kイメージとともに75のアンセーフな概念である ``Swastika,'' ``Sexual Harassment,'' と ``Assaults'' を特徴とする。
次に、VLMの認識(概念認識)とアライメント(倫理的推論)能力を体系的に評価する。
一般的な8つのVLMを評価し、ほとんどのVLMは安全でない概念を正確に認識しているが、これらの概念を誤って安全なものと分類することがある。
また、視覚的概念とテキスト的概念を区別する際の、オープンソースのVLM間の一貫したモダリティギャップを同定する。
このギャップを埋めるために、近位ポリシー最適化(PPO)を用いた簡易強化学習(RL)ベースのアプローチを導入し、画像から安全でない概念を識別する能力を強化する。
提案手法では,VLM応答を直接ベースとした報酬スコアを用いて,人手による評価データ収集の必要性を回避し,新たな報酬モデルをトレーニングする。
実験結果から,本手法は画像上でのVLMアライメントを効果的に向上し,汎用性を保っていることが明らかとなった。
教師付き微調整(SFT)や直接選好最適化(DPO)などのベースラインを上回っている。
我々は,安全なVLMの実現に向けたコミュニティの取り組みに,データセット,評価結果,アライメントソリューションが貢献することを期待している。
関連論文リスト
- HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。
私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。
我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - Does Representation Intervention Really Identify Desired Concepts and Elicit Alignment? [73.80382983108997]
表現の介入(Representation intervention)は、大規模言語モデルにおいて基礎となる概念を符号化する表現の発見と修正を目的としている。
介入が忠実であれば、介入されたLLMは有害な概念を消去し、非分配的敵のプロンプトとアウト・オブ・ディストリビューションのジェイルブレイクの両方に対して堅牢であるべきである。
本研究では,有害表現と良性表現の境界を簡易化する概念集中(COCA)を提案する。
論文 参考訳(メタデータ) (2025-05-24T12:23:52Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - Enhancing Zero-Shot Image Recognition in Vision-Language Models through Human-like Concept Guidance [41.6755826072905]
ゼロショット画像認識タスクでは、人間は目に見えないカテゴリを分類する際、顕著な柔軟性を示す。
既存の視覚言語モデルは、しばしば準最適プロンプトエンジニアリングのため、現実世界のアプリケーションでは性能が劣る。
これらの問題に対処するために,概念誘導型人間ライクなベイズ推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-20T06:20:13Z) - Hyperbolic Safety-Aware Vision-Language Models [44.06996781749013]
双曲空間の本質的階層的特性を活用することによって、未学習から認知パラダイムへ移行する新しいアプローチを導入する。
我々のHySACであるHyperbolic Safety-Aware CLIPは、安全な画像テキストペアと安全でない画像テキストペア間の階層的および非対称的関係をモデル化するために、entailment loss関数を使用します。
我々のアプローチは、安全性の認識を向上するだけでなく、視覚言語モデルにおけるコンテンツモデレーションのためのより適応的で解釈可能なフレームワークも確立します。
論文 参考訳(メタデータ) (2025-03-15T13:18:04Z) - Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。
確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。
既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文 参考訳(メタデータ) (2024-12-31T00:06:04Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - PSA-VLM: Enhancing Vision-Language Model Safety through Progressive Concept-Bottleneck-Driven Alignment [28.008884416277954]
本稿では,視覚的モダリティの安全性向上を目的とした,プログレッシブなコンセプトベースアライメント戦略であるPSA-VLMを提案する。
提案手法は,VLMの安全性ベンチマークにおいて,最先端の安全性を実現する。
論文 参考訳(メタデータ) (2024-11-18T13:01:57Z) - ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time [12.160713548659457]
対向的な視覚入力は、容易にVLM防御機構をバイパスすることができる。
本稿では,入力された視覚的内容と出力応答を評価する2相推論時間アライメントフレームワークを提案する。
実験の結果, ETAは無害性, 有用性, 効率の点で, ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T07:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。