論文の概要: Does Unification Come at a Cost? Uni-SafeBench: A Safety Benchmark for Unified Multimodal Large Models
- arxiv url: http://arxiv.org/abs/2604.00547v1
- Date: Wed, 01 Apr 2026 06:45:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.876939
- Title: Does Unification Come at a Cost? Uni-SafeBench: A Safety Benchmark for Unified Multimodal Large Models
- Title(参考訳): Uni-SafeBench: 統一マルチモーダル大規模モデルの安全性ベンチマーク
- Authors: Zixiang Peng, Yongxiu Xu, Qinyi Zhang, Jiexun Shen, Yifan Zhang, Hongbo Xu, Yubin Wang, Gaopeng Gou,
- Abstract要約: UMLM(Unified Multimodal Large Models)は、単一のアーキテクチャ内で理解と生成機能を統合する。
既存の安全ベンチマークは、主に独立した理解や生成タスクに焦点を当てている。
Uni-SafeBenchは、7つのタスクタイプにまたがる6つの主要な安全カテゴリの分類を特徴とする総合的なベンチマークである。
モデル安全性からコンテキスト安全性を効果的に分離するフレームワークであるUni-Judgerを開発した。
- 参考スコア(独自算出の注目度): 15.702553632939102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified Multimodal Large Models (UMLMs) integrate understanding and generation capabilities within a single architecture. While this architectural unification, driven by the deep fusion of multimodal features, enhances model performance, it also introduces important yet underexplored safety challenges. Existing safety benchmarks predominantly focus on isolated understanding or generation tasks, failing to evaluate the holistic safety of UMLMs when handling diverse tasks under a unified framework. To address this, we introduce Uni-SafeBench, a comprehensive benchmark featuring a taxonomy of six major safety categories across seven task types. To ensure rigorous assessment, we develop Uni-Judger, a framework that effectively decouples contextual safety from intrinsic safety. Based on comprehensive evaluations across Uni-SafeBench, we uncover that while the unification process enhances model capabilities, it significantly degrades the inherent safety of the underlying LLM. Furthermore, open-source UMLMs exhibit much lower safety performance than multimodal large models specialized for either generation or understanding tasks. We open-source all resources to systematically expose these risks and foster safer AGI development.
- Abstract(参考訳): UMLM(Unified Multimodal Large Models)は、単一のアーキテクチャ内で理解と生成機能を統合する。
このアーキテクチャ統合は、マルチモーダル機能の深い融合によって推進され、モデルパフォーマンスが向上する一方で、重要で未調査の安全性の課題ももたらします。
既存の安全ベンチマークは、主に独立した理解または生成タスクに焦点を当てており、統一されたフレームワークの下で多様なタスクを扱う場合のUMLMの全体的安全性の評価に失敗している。
この問題を解決するために、Uni-SafeBenchは7つのタスクタイプにまたがる6つの主要な安全カテゴリの分類を特徴とする包括的なベンチマークである。
厳密な評価を確保するため,本質的な安全性から文脈的安全性を効果的に分離するフレームワークであるUni-Judgerを開発した。
Uni-SafeBench間の総合的な評価に基づいて、統一プロセスはモデル機能を向上させるが、基盤となるLLMの本来の安全性を著しく低下させることを明らかにした。
さらに、オープンソースのUMLMは、生成タスクや理解タスクに特化したマルチモーダルな大規模モデルよりもはるかに安全性が低い。
我々は、これらのリスクを体系的に公開し、より安全なAGI開発を促進するために、すべてのリソースをオープンソース化します。
関連論文リスト
- Robust Multimodal Safety via Conditional Decoding [52.92816441364308]
マルチモーダル大規模言語モデル(MLLM)は、有害なクエリが相互モーダル相互作用を悪用した場合、しばしば安全性の低下を経験する。
本稿では,MLLMの内部表現を利用して応答生成前の二項安全トークンを予測する,シンプルな条件付きデコード戦略であるCASAを提案する。
論文 参考訳(メタデータ) (2026-03-31T23:19:50Z) - Unsafe by Reciprocity: How Generation-Understanding Coupling Undermines Safety in Unified Multimodal Models [53.41258113970795]
統一マルチモーダルモデル(UMM)における相互機能相互性自体が脆弱性の構造的源となっているかを検討する。
相互相互作用に基づくクロスファンクショナル・ファンクショナル・エクスプロイテーションは, 理解と生成の間の双方向の相互作用を明示的に活用する, 新たな攻撃パラダイムである。
論文 参考訳(メタデータ) (2026-03-28T16:28:39Z) - UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models [29.443907124394382]
UniSAFEは、Unified Multimodal Models (UMMs) のシステムレベルの安全性評価のための最初の総合的なベンチマークである。
UniSAFEはタスク固有のI/O設定に共通するリスクシナリオを提案し、安全障害のクロスタスク比較を制御可能にする。
以上の結果から,マルチイメージ構成における安全性違反の増大や,マルチターン設定など,現在のUMMにおける重大な脆弱性が明らかになった。
論文 参考訳(メタデータ) (2026-03-18T08:30:31Z) - DeepKnown-Guard: A Proprietary Model-Based Safety Response Framework for AI Agents [12.054307827384415]
大きな言語モデル(LLM)はますます顕著になり、重要なドメインへの信頼性の高いデプロイメントを厳しく制限しています。
本稿では,LLMを入力レベルと出力レベルの両方で保護する新しい安全応答フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T03:04:35Z) - SafeMind: Benchmarking and Mitigating Safety Risks in Embodied LLM Agents [7.975014390527644]
大規模言語モデル(LLM)を利用したエージェントは、高度な計画能力を継承するが、物理世界との直接的な相互作用は安全上の脆弱性を露呈する。
SafeMindBenchは、4つのタスクカテゴリ(Instr-Risk、Env-Risk、Order-Fix、Req-Align)にまたがる5,558のサンプルを備えたマルチモーダルベンチマークである。
SafeMindAgentはモジュール型Planner-Executorアーキテクチャで、3つのケースドセーフモジュールを統合し、安全性制約を推論プロセスに組み込む。
論文 参考訳(メタデータ) (2025-09-30T07:24:04Z) - When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models [50.66979825532277]
我々は、クロスモーダルチャレンジに適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。
新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されている。
実験の結果, SRPO学習モデルでは, キーセーフティベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-09-15T15:40:58Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。