論文の概要: KSAFE-MM: A Multimodal Safety Benchmark via Localized Contextualization for Korean Cultural Risks
- arxiv url: http://arxiv.org/abs/2605.28013v1
- Date: Wed, 27 May 2026 06:08:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.792023
- Title: KSAFE-MM: A Multimodal Safety Benchmark via Localized Contextualization for Korean Cultural Risks
- Title(参考訳): KSAFE-MM:韓国の文化リスクに対する局所的文脈化によるマルチモーダル安全ベンチマーク
- Authors: Yongwoo Kim, Sojung An, Yunjin Park, Jungwon Yoon, Dujin Lee, HyunBeom Cho, Jaewon Lee, Wonhyuk Lee, Youngchol Kim, JeongYeop Kim, Donghyun Kim,
- Abstract要約: 本稿では,韓国のマルチモーダル安全性評価ベンチマークであるKSAFE-MMを紹介する。
KSAFE-MMはKSAFE-MM-GとKSAFE-MM-Cの2つの部分からなる。
我々は、KSAFE-MM上で12の最先端MLLMを評価し、ジェネリックモデルよりも文化的な攻撃に対する脆弱性が大きいことを示した。
- 参考スコア(独自算出の注目度): 11.227509564873621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) exacerbate safety risks by introducing vulnerabilities across multiple modalities, such as language and vision. Current MLLM safety evaluation tools, however, suffer from major limitations: 1) English-centric dataset construction, and 2) a focus on generic risks that are not tied to local cultural contexts. This paper introduces KSAFE-MM, a benchmark for Korean multimodal safety evaluation that covers both general safety risks and culture-specific vulnerabilities. KSAFE-MM consists of two parts, KSAFE-MM-G and KSAFE-MM-C. KSAFE-MM-G evaluates globally shared risks in Korean contexts through linguistic contextualization, which transforms generic safety queries into contextually grounded multimodal samples. KSAFE-MM-C targets culture-dependent MLLM safety vulnerabilities using localized visual queries derived from real-world contexts. It pairs these visual queries with jailbreak-style textual queries to cover multimodal safety risks involving cultural visual cues and malicious textual intent. Together, these components provide a general-to-local construction pipeline for evaluating both globally shared safety risks and culture-specific vulnerabilities. We evaluate 12 state-of-the-art MLLMs on KSAFE-MM and reveal that models exhibit greater vulnerability to culturally grounded attacks than to generic ones. Notably, jailbreaking strategies substantially amplify attack success rates, with ProgramExecution yielding up to 74.2% ASR compared to 13.4% for standard queries. Furthermore, we identify a systematic trade-off between safety and over-refusal, where models achieving low ASR tend to exhibit excessive refusal behavior on benign queries. These findings highlight the urgent need for culturally grounded safety evaluation beyond English-centric benchmarks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、言語やビジョンなど、複数のモダリティに脆弱性を導入することで、安全性のリスクを悪化させる。
しかし、現在のMLLMの安全性評価ツールには、大きな制限がある。
1)英語中心のデータセット構築、及び
2)地域文化の文脈とは無関係な総合的なリスクに焦点を当てる。
本稿では,韓国のマルチモーダル安全性評価のためのベンチマークであるKSAFE-MMを紹介する。
KSAFE-MMはKSAFE-MM-GとKSAFE-MM-Cの2つの部分からなる。
KSAFE-MM-Gは、言語的文脈化を通じて、韓国の文脈においてグローバルに共有されるリスクを評価し、一般的な安全クエリを文脈的に基底付けられたマルチモーダルサンプルに変換する。
KSAFE-MM-Cは、実世界のコンテキストから派生した局所的なビジュアルクエリを使用して、文化に依存したMLLM安全性の脆弱性をターゲットにしている。
これらのビジュアルクエリとジェイルブレイクスタイルのテキストクエリを組み合わせることで、文化的な視覚的手がかりや悪意のあるテキスト意図を含む、マルチモーダルな安全性リスクをカバーする。
これらのコンポーネントは、グローバルに共有される安全リスクと文化固有の脆弱性の両方を評価するための、汎用的なローカル構築パイプラインを提供する。
我々は、KSAFE-MM上で12の最先端MLLMを評価し、ジェネリックモデルよりも文化的な攻撃に対する脆弱性が大きいことを示した。
特に、ジェイルブレイク戦略は攻撃の成功率を大幅に向上させ、ProgramExecutionはASRが74.2%、標準クエリが13.4%である。
さらに,ASRの低いモデルでは,良質なクエリに対して過剰な拒否動作を示す傾向にあるため,安全性と過剰な拒絶の体系的なトレードオフを見出す。
これらの知見は、英語中心のベンチマークを超えて、文化的に根拠付けられた安全性評価の緊急の必要性を浮き彫りにしている。
関連論文リスト
- XL-SafetyBench: A Country-Grounded Cross-Cultural Benchmark for LLM Safety and Cultural Sensitivity [3.342964361434013]
XL-SafetyBenchは10の国語対にわたる5500のテストケーススイートである。
国に面した敵のプロンプトのジェイルブレイクベンチマークと、地元の感性が無害な要求に埋め込まれた文化ベンチマークで構成されている。
各アイテムは多段階パイプラインを通じて構築され、LSM支援の原則的発見、自動検証ゲート、国毎に独立したネイティブスピーカーアノテーションが組み合わされている。
論文 参考訳(メタデータ) (2026-05-07T04:35:03Z) - SEA-SafeguardBench: Evaluating AI Safety in SEA Languages and Cultures [36.95168918567729]
既存のマルチ言語安全ベンチマークは、しばしば機械翻訳された英語データに依存している。
SEA-SafeguardBenchは,SEAの最初の人間認証安全ベンチマークである。
8つの言語、21,640のサンプル、および3つのサブセット(ジェネラル、イン・ザ・ワイルド、コンテンツ生成)をカバーする。
論文 参考訳(メタデータ) (2025-12-05T07:57:57Z) - OutSafe-Bench: A Benchmark for Multimodal Offensive Content Detection in Large Language Models [54.80460603255789]
マルチモーダル時代に設計された,最も包括的なコンテンツ安全性評価テストスイートであるOutSafe-Benchを紹介する。
OutSafe-Benchには、4つのモダリティにまたがる大規模なデータセットが含まれており、18,000以上のバイリンガル(中国語と英語)テキストプロンプト、4500のイメージ、450のオーディオクリップ、450のビデオが9つの重要なコンテンツリスクカテゴリで体系的に注釈付けされている。
このデータセットに加えて,多次元クロスリスクスコア(Multidimensional Cross Risk Score, MCRS)も導入した。
論文 参考訳(メタデータ) (2025-11-13T13:18:27Z) - When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models [50.66979825532277]
我々は、クロスモーダルチャレンジに適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。
新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されている。
実験の結果, SRPO学習モデルでは, キーセーフティベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-09-15T15:40:58Z) - USB: A Comprehensive and Unified Safety Evaluation Benchmark for Multimodal Large Language Models [31.412080488801507]
Unified Safety Benchmarks (USB) はMLLMの安全性において最も包括的な評価ベンチマークの一つである。
我々のベンチマークでは、高品質なクエリ、広範囲なリスクカテゴリ、包括的なモーダルの組み合わせ、脆弱性と過度な評価の両方が特徴である。
論文 参考訳(メタデータ) (2025-05-26T08:39:14Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。