論文の概要: UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2603.17476v1
- Date: Wed, 18 Mar 2026 08:30:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.583016
- Title: UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models
- Title(参考訳): UniSAFE: 統一マルチモーダルモデルの安全性評価のための総合ベンチマーク
- Authors: Segyu Lee, Boryeong Cho, Hojung Jung, Seokhyun An, Juhyeong Kim, Jaehyun Kwak, Yongjin Yang, Sangwon Jang, Youngrok Park, Wonjun Chang, Se-Young Yun,
- Abstract要約: UniSAFEは、Unified Multimodal Models (UMMs) のシステムレベルの安全性評価のための最初の総合的なベンチマークである。
UniSAFEはタスク固有のI/O設定に共通するリスクシナリオを提案し、安全障害のクロスタスク比較を制御可能にする。
以上の結果から,マルチイメージ構成における安全性違反の増大や,マルチターン設定など,現在のUMMにおける重大な脆弱性が明らかになった。
- 参考スコア(独自算出の注目度): 29.443907124394382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified Multimodal Models (UMMs) offer powerful cross-modality capabilities but introduce new safety risks not observed in single-task models. Despite their emergence, existing safety benchmarks remain fragmented across tasks and modalities, limiting the comprehensive evaluation of complex system-level vulnerabilities. To address this gap, we introduce UniSAFE, the first comprehensive benchmark for system-level safety evaluation of UMMs across 7 I/O modality combinations, spanning conventional tasks and novel multimodal-context image generation settings. UniSAFE is built with a shared-target design that projects common risk scenarios across task-specific I/O configurations, enabling controlled cross-task comparisons of safety failures. Comprising 6,802 curated instances, we use UniSAFE to evaluate 15 state-of-the-art UMMs, both proprietary and open-source. Our results reveal critical vulnerabilities across current UMMs, including elevated safety violations in multi-image composition and multi-turn settings, with image-output tasks consistently more vulnerable than text-output tasks. These findings highlight the need for stronger system-level safety alignment for UMMs. Our code and data are publicly available at https://github.com/segyulee/UniSAFE
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は、強力なクロスモーダル機能を提供するが、シングルタスクモデルでは観測できない新しい安全性リスクをもたらす。
それらの出現にもかかわらず、既存の安全ベンチマークはタスクやモダリティにまたがって断片化され、複雑なシステムレベルの脆弱性の包括的な評価が制限される。
このギャップに対処するために、UniSAFEは7つのI/Oモダリティの組み合わせでUMMのシステムレベルの安全性を評価するための最初の総合的なベンチマークであり、従来のタスクと新しいマルチモーダル・コンテキスト画像生成設定にまたがる。
UniSAFEはタスク固有のI/O設定に共通するリスクシナリオを投影する共有ターゲット設計で構築されており、安全障害のクロスタスク比較を制御できる。
6,802のキュレートされたインスタンスをコンパイルし、UniSAFEを使用して15の最先端のUMMを評価します。
以上の結果から,画像出力タスクはテキスト出力タスクよりも常に脆弱であるとともに,マルチイメージ構成における安全性違反の増大やマルチターン設定など,現在のUMMの重大な脆弱性が明らかとなった。
これらの知見は,UMMのより強力なシステムレベルの安全アライメントの必要性を浮き彫りにした。
私たちのコードとデータはhttps://github.com/segyulee/UniSAFEで公開されています。
関連論文リスト
- When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models [50.66979825532277]
我々は、クロスモーダルチャレンジに適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。
新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されている。
実験の結果, SRPO学習モデルでは, キーセーフティベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-09-15T15:40:58Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - USB: A Comprehensive and Unified Safety Evaluation Benchmark for Multimodal Large Language Models [31.412080488801507]
Unified Safety Benchmarks (USB) はMLLMの安全性において最も包括的な評価ベンチマークの一つである。
我々のベンチマークでは、高品質なクエリ、広範囲なリスクカテゴリ、包括的なモーダルの組み合わせ、脆弱性と過度な評価の両方が特徴である。
論文 参考訳(メタデータ) (2025-05-26T08:39:14Z) - DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models [37.104276926258095]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの統合により、ユニークな安全性上の課題を提起する。
textbfDREAM(textittextbfDisentangling textbfRisks to textbfEnhance Safety textbfAlignment in textbfMLLMs)を導入する。
論文 参考訳(メタデータ) (2025-04-25T03:54:24Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z) - SoK: The Security-Safety Continuum of Multimodal Foundation Models through Information Flow and Game-Theoretic Defenses [58.93030774141753]
MFM(Multimodal foundation model)は、多種多様なデータモダリティを統合し、複雑で広範囲なタスクをサポートする。
本稿では,モデル行動とシステムレベルの相互作用の両方から生じる致命的な脅威を特定することで,MFMの文脈における安全性とセキュリティの概念を統一する。
論文 参考訳(メタデータ) (2024-11-17T23:06:20Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。