論文の概要: When Helpers Become Hazards: A Benchmark for Analyzing Multimodal LLM-Powered Safety in Daily Life
- arxiv url: http://arxiv.org/abs/2601.04043v1
- Date: Wed, 07 Jan 2026 15:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.676622
- Title: When Helpers Become Hazards: A Benchmark for Analyzing Multimodal LLM-Powered Safety in Daily Life
- Title(参考訳): ヘルパーがハザードになるとき: 日常生活におけるマルチモーダル LLM による安全性分析のためのベンチマーク
- Authors: Xinyue Lou, Jinan Xu, Jingyi Yin, Xiaolong Wang, Zhaolu Kang, Youwei Liao, Yixuan Wang, Xiangyu Shi, Fengran Mo, Su Yao, Kaiyu Huang,
- Abstract要約: 本研究では,マルチモーダル大規模言語モデル(MLLM)が日常生活における人間の行動に与える影響を調査・評価する。
実世界の画像テキストサンプル2,013点を含むマルチモーダル安全ベンチマークSaLADを紹介する。
18のMLLMの結果、最高性能のモデルは安全でないクエリで57.2%しか応答しないことがわかった。
- 参考スコア(独自算出の注目度): 36.244977974241245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Multimodal Large Language Models (MLLMs) become an indispensable assistant in human life, the unsafe content generated by MLLMs poses a danger to human behavior, perpetually overhanging human society like a sword of Damocles. To investigate and evaluate the safety impact of MLLMs responses on human behavior in daily life, we introduce SaLAD, a multimodal safety benchmark which contains 2,013 real-world image-text samples across 10 common categories, with a balanced design covering both unsafe scenarios and cases of oversensitivity. It emphasizes realistic risk exposure, authentic visual inputs, and fine-grained cross-modal reasoning, ensuring that safety risks cannot be inferred from text alone. We further propose a safety-warning-based evaluation framework that encourages models to provide clear and informative safety warnings, rather than generic refusals. Results on 18 MLLMs demonstrate that the top-performing models achieve a safe response rate of only 57.2% on unsafe queries. Moreover, even popular safety alignment methods limit effectiveness of the models in our scenario, revealing the vulnerabilities of current MLLMs in identifying dangerous behaviors in daily life. Our dataset is available at https://github.com/xinyuelou/SaLAD.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、人間の生活において必須のアシスタントとなるため、MLLMが生み出す安全でないコンテンツは人間の行動に危険をもたらし、永続的にダモスの剣のように人間の社会を誇張する。
MLLMの応答が日常生活における人間の行動に与える影響を調査・評価するために,10の共通カテゴリにわたる2,013個の実世界の画像テキストサンプルを含むマルチモーダル・セーフティ・ベンチマークSaLADを導入し,安全でないシナリオと過敏なケースの両方をカバーするバランスの取れた設計を行った。
現実的なリスク露光、真正の視覚的入力、きめ細かいクロスモーダル推論を強調し、安全リスクをテキストだけでは推論できないことを保証します。
さらに、モデルに汎用的な拒絶ではなく、明確で有益な安全警告を提供することを奨励する安全警告に基づく評価フレームワークを提案する。
18のMLLMの結果、最高性能のモデルは安全でないクエリで57.2%しか応答しないことがわかった。
さらに、一般的な安全アライメント手法でさえ、我々のシナリオにおけるモデルの有効性を制限し、現在のMLLMの脆弱性が日常生活における危険な行動を特定することを明らかにする。
データセットはhttps://github.com/xinyuelou/SaLAD.comで公開されています。
関連論文リスト
- Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。