論文の概要: USB: A Comprehensive and Unified Safety Evaluation Benchmark for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2505.23793v1
- Date: Mon, 26 May 2025 08:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.503747
- Title: USB: A Comprehensive and Unified Safety Evaluation Benchmark for Multimodal Large Language Models
- Title(参考訳): USB: マルチモーダル大言語モデルの総合的かつ統一的な安全性評価ベンチマーク
- Authors: Baolin Zheng, Guanlin Chen, Hongqiong Zhong, Qingyang Teng, Yingshui Tan, Zhendong Liu, Weixun Wang, Jiaheng Liu, Jian Yang, Huiyun Jing, Jincheng Wei, Wenbo Su, Xiaoyong Zhu, Bo Zheng, Kaifu Zhang,
- Abstract要約: Unified Safety Benchmarks (USB) はMLLMの安全性において最も包括的な評価ベンチマークの一つである。
我々のベンチマークでは、高品質なクエリ、広範囲なリスクカテゴリ、包括的なモーダルの組み合わせ、脆弱性と過度な評価の両方が特徴である。
- 参考スコア(独自算出の注目度): 31.412080488801507
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite their remarkable achievements and widespread adoption, Multimodal Large Language Models (MLLMs) have revealed significant security vulnerabilities, highlighting the urgent need for robust safety evaluation benchmarks. Existing MLLM safety benchmarks, however, fall short in terms of data quality and coverge, and modal risk combinations, resulting in inflated and contradictory evaluation results, which hinders the discovery and governance of security concerns. Besides, we argue that vulnerabilities to harmful queries and oversensitivity to harmless ones should be considered simultaneously in MLLMs safety evaluation, whereas these were previously considered separately. In this paper, to address these shortcomings, we introduce Unified Safety Benchmarks (USB), which is one of the most comprehensive evaluation benchmarks in MLLM safety. Our benchmark features high-quality queries, extensive risk categories, comprehensive modal combinations, and encompasses both vulnerability and oversensitivity evaluations. From the perspective of two key dimensions: risk categories and modality combinations, we demonstrate that the available benchmarks -- even the union of the vast majority of them -- are far from being truly comprehensive. To bridge this gap, we design a sophisticated data synthesis pipeline that generates extensive, high-quality complementary data addressing previously unexplored aspects. By combining open-source datasets with our synthetic data, our benchmark provides 4 distinct modality combinations for each of the 61 risk sub-categories, covering both English and Chinese across both vulnerability and oversensitivity dimensions.
- Abstract(参考訳): 目覚ましい成果と広く採用されているにもかかわらず、Multimodal Large Language Models (MLLM) は重大なセキュリティ上の脆弱性を明らかにし、堅牢な安全性評価ベンチマークの必要性を強調している。
しかし、既存のMLLMの安全性ベンチマークは、データ品質と隠蔽、モダルリスクの組み合わせの点で不足しているため、膨らんだ、矛盾した評価結果が得られ、セキュリティ上の懸念の発見とガバナンスを妨げている。
また,有害なクエリに対する脆弱性と有害なクエリに対する過敏性はMLLMの安全性評価において同時に考慮されるべきである。
本稿では,これらの問題点に対処するために,MLLMの安全性において最も包括的な評価ベンチマークの一つである統一安全ベンチマーク(USB)を紹介する。
我々のベンチマークでは、高品質なクエリ、広範囲なリスクカテゴリ、包括的なモーダルの組み合わせ、脆弱性と過度な評価の両方が特徴である。
リスクカテゴリとモダリティの組み合わせという2つの重要な側面の観点から、利用可能なベンチマーク — 大多数の合併 — が真に包括的なものではないことを実証しています。
このギャップを埋めるため、これまで未開発の側面に対処する広範囲で高品質な補完データを生成する、洗練されたデータ合成パイプラインを設計する。
オープンソースデータセットと私たちの合成データを組み合わせることで、我々のベンチマークでは、61のリスクサブカテゴリ毎に4つの異なるモダリティの組み合わせを提供しています。
関連論文リスト
- SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - CHiSafetyBench: A Chinese Hierarchical Safety Benchmark for Large Language Models [7.054112690519648]
CHiSafetyBenchは、リスクのあるコンテンツを特定し、中国のコンテキストにおけるリスクのある質問への回答を拒否する大きな言語モデルの能力を評価するための安全ベンチマークである。
このデータセットは、複数の選択質問と質問回答、リスクコンテンツ識別の観点からのLSMの評価、リスクのある質問への回答を拒否する能力の2つのタスクからなる。
本実験により, 各種安全領域における各種モデルの各種性能が明らかとなり, 中国における安全能力向上の可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-14T06:47:40Z) - MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models [39.97454990633856]
本稿では,MLLMの多次元安全性評価スイートであるMLLMGuardを紹介する。
バイリンガル画像テキスト評価データセット、推論ユーティリティ、軽量評価器が含まれている。
13種類の先進モデルに対する評価結果は,MLLMが安全かつ責任を負うことができるまでには,まだかなりの道のりを歩んでいることを示唆している。
論文 参考訳(メタデータ) (2024-06-11T13:41:33Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。