論文の概要: MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries?
- arxiv url: http://arxiv.org/abs/2406.17806v1
- Date: Sat, 22 Jun 2024 23:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 17:46:26.699625
- Title: MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries?
- Title(参考訳): MOSSBench: マルチモーダル言語モデルは安全なクエリに過敏か?
- Authors: Xirui Li, Hengguang Zhou, Ruochen Wang, Tianyi Zhou, Minhao Cheng, Cho-Jui Hsieh,
- Abstract要約: 人間は認知の歪みに傾向があり、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンがある。
本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。
既存のMLLMの過敏性を引き起こす3種類の刺激を同定する。
- 参考スコア(独自算出の注目度): 70.77691645678804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans are prone to cognitive distortions -- biased thinking patterns that lead to exaggerated responses to specific stimuli, albeit in very different contexts. This paper demonstrates that advanced Multimodal Large Language Models (MLLMs) exhibit similar tendencies. While these models are designed to respond queries under safety mechanism, they sometimes reject harmless queries in the presence of certain visual stimuli, disregarding the benign nature of their contexts. As the initial step in investigating this behavior, we identify three types of stimuli that trigger the oversensitivity of existing MLLMs: Exaggerated Risk, Negated Harm, and Counterintuitive Interpretation. To systematically evaluate MLLMs' oversensitivity to these stimuli, we propose the Multimodal OverSenSitivity Benchmark (MOSSBench). This toolkit consists of 300 manually collected benign multimodal queries, cross-verified by third-party reviewers (AMT). Empirical studies using MOSSBench on 20 MLLMs reveal several insights: (1). Oversensitivity is prevalent among SOTA MLLMs, with refusal rates reaching up to 76% for harmless queries. (2). Safer models are more oversensitive: increasing safety may inadvertently raise caution and conservatism in the model's responses. (3). Different types of stimuli tend to cause errors at specific stages -- perception, intent reasoning, and safety judgement -- in the response process of MLLMs. These findings highlight the need for refined safety mechanisms that balance caution with contextually appropriate responses, improving the reliability of MLLMs in real-world applications. We make our project available at https://turningpoint-ai.github.io/MOSSBench/.
- Abstract(参考訳): 人間は認知の歪みに悩まされがちで、特定の刺激に対する過大な反応を引き起こす偏見のある思考パターンは、状況によって異なる。
本稿では,高度マルチモーダル言語モデル (MLLM) が同様の傾向を示すことを示す。
これらのモデルは、安全メカニズムの下でクエリに応答するように設計されているが、特定の視覚刺激が存在する場合の無害なクエリを拒否することがある。
この行動を調査する最初のステップとして、既存のMLLMの過敏性を引き起こす3つの種類の刺激を同定する。
これらの刺激に対するMLLMの過敏度を体系的に評価するために,Multimodal OverSenSitivity Benchmark (MOSSBench)を提案する。
このツールキットは300個の手作業で収集された良質なマルチモーダルクエリで構成されており、サードパーティのレビュアー(AMT)によって相互に検証されている。
20個のMLLM上でのMOSSBenchを用いた実証研究により,いくつかの知見が得られた。
SOTA MLLMでは過敏性が一般的であり、無害なクエリに対して最大76%の拒絶率に達する。
(2)。
安全性の増大は、モデルの応答において不注意と保守性を必然的に引き起こす可能性がある。
(3)。
MLLMの反応過程において、異なる種類の刺激が特定の段階(知覚、意図的推論、安全判断)でエラーを引き起こす傾向がある。
これらの知見は、文脈的に適切な応答に注意を払い、現実のアプリケーションにおけるMLLMの信頼性を向上させるための、洗練された安全メカニズムの必要性を強調している。
私たちのプロジェクトはhttps://turningpoint-ai.github.io/MOSSBench/で公開しています。
関連論文リスト
- Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,マルチモーダル大規模言語モデル(MLLM)を多種多様なベンチマークで体系的に評価する。
否定論が最初に正しい応答を示すために導入されたとき、大きな性能低下を示す。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模に有害なプロンプトを自動生成する新しい手法を提案する。
次に,8つのモデルファミリーにまたがる25のLLMの過剰拒絶量を測定するための総合的研究を行った。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective [9.633811630889237]
本稿では,視覚質問応答(VQA)問題におけるバイアスを解釈するための因果的枠組みを提案する。
マルチホップ推論を必要とする12,000の挑戦VQAインスタンスを備えた新しいデータセットを導入する。
実験の結果, MLLMはMOREに悪影響を及ぼし, 強い一方向偏差と限定的な意味理解を示すことがわかった。
論文 参考訳(メタデータ) (2024-03-27T08:38:49Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。