論文の概要: VSCBench: Bridging the Gap in Vision-Language Model Safety Calibration
- arxiv url: http://arxiv.org/abs/2505.20362v1
- Date: Mon, 26 May 2025 09:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.208194
- Title: VSCBench: Bridging the Gap in Vision-Language Model Safety Calibration
- Title(参考訳): VSCBench:ビジョンランゲージモデルの安全性校正でギャップを埋める
- Authors: Jiahui Geng, Qing Li, Zongxiong Chen, Yuxia Wang, Derui Zhu, Zhuohan Xie, Chenyang Lyu, Xiuying Chen, Preslav Nakov, Fakhri Karray,
- Abstract要約: 我々は、アンダーセーフとオーバーセーフの両方に体系的に対処する$textitsafety calibrationという概念を紹介した。
視覚的にもテキスト的にも似ているが安全性の点で異なる3,600枚の画像テキストペアからなる新しいデータセットを提示する。
本ベンチマークにより,広義の視覚言語モデル11種を対象に,安全性校正の評価を行った。
- 参考スコア(独自算出の注目度): 44.74741064549195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of vision-language models (VLMs) has brought a lot of attention to their safety alignment. However, existing methods have primarily focused on model undersafety, where the model responds to hazardous queries, while neglecting oversafety, where the model refuses to answer safe queries. In this paper, we introduce the concept of $\textit{safety calibration}$, which systematically addresses both undersafety and oversafety. Specifically, we present $\textbf{VSCBench}$, a novel dataset of 3,600 image-text pairs that are visually or textually similar but differ in terms of safety, which is designed to evaluate safety calibration across image-centric and text-centric scenarios. Based on our benchmark, we evaluate safety calibration across eleven widely used VLMs. Our extensive experiments revealed major issues with both undersafety and oversafety. We further investigated four approaches to improve the model's safety calibration. We found that even though some methods effectively calibrated the models' safety problems, these methods also lead to the degradation of models' utility. This trade-off underscores the urgent need for advanced calibration methods, and our benchmark provides a valuable tool for evaluating future approaches. Our code and data are available at https://github.com/jiahuigeng/VSCBench.git.
- Abstract(参考訳): 視覚言語モデル(VLM)の急速な進歩は、その安全性に多くの注目を集めている。
しかし、既存の手法は主にモデルアンダーセーフに重点を置いており、モデルが危険なクエリに応答する一方で、過度な安全性を無視し、モデルが安全なクエリに応答することを拒んでいる。
本稿では,過度な安全性と過度な安全性の両方を体系的に扱う$\textit{safety calibration}$という概念を紹介する。
具体的には、$\textbf{VSCBench}$という、視覚的にもテキスト的にも似ているが安全性の点で異なる3600の画像テキストペアからなる新しいデータセットを提示し、画像中心およびテキスト中心のシナリオ間の安全性校正を評価するように設計されている。
本ベンチマークにより,広く使用されている11個のVLMの安全性校正について検討した。
大規模な実験では、安全性の低さと過度な安全性の両面で大きな問題が明らかになりました。
さらに、モデルの安全性校正を改善するための4つのアプローチについて検討した。
モデルの安全性問題を効果的に校正する手法もあるが,これらの手法はモデルの有用性の低下にも繋がることがわかった。
このトレードオフは、先進的なキャリブレーション手法の緊急の必要性を裏付けるもので、我々のベンチマークは将来のアプローチを評価する貴重なツールを提供する。
私たちのコードとデータはhttps://github.com/jiahuigeng/VSCBench.git.comで公開されています。
関連論文リスト
- Safe Vision-Language Models via Unsafe Weights Manipulation [75.04426753720551]
我々は、異なるレベルの粒度で安全性を評価する新しい指標セットであるSafe-Groundを導入し、安全性の評価を見直した。
我々は異なる方向を採り、トレーニングなしでモデルをより安全にできるかどうかを探り、Unsafe Weights Manipulation (UWM)を導入します。
UWMは、セーフとアンセーフのインスタンスのキャリブレーションセットを使用して、セーフとアンセーフのコンテンツのアクティベーションを比較し、後者を処理する上で最も重要なパラメータを特定する。
論文 参考訳(メタデータ) (2025-03-14T17:00:22Z) - Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。
Safe and Responsible Large Language Model (textbfSR$_textLLM$)を紹介する。
textbfSR$_textLLM$は知識の整合性を保ちながらバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。