論文の概要: MSTS: A Multimodal Safety Test Suite for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2501.10057v1
- Date: Fri, 17 Jan 2025 09:22:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:59:58.003534
- Title: MSTS: A Multimodal Safety Test Suite for Vision-Language Models
- Title(参考訳): MSTS:ビジョンランゲージモデルのためのマルチモーダル安全テストスイート
- Authors: Paul Röttger, Giuseppe Attanasio, Felix Friedrich, Janis Goldzycher, Alicia Parrish, Rishabh Bhardwaj, Chiara Di Bonaventura, Roman Eng, Gaia El Khoury Geagea, Sujata Goswami, Jieun Han, Dirk Hovy, Seogyeong Jeong, Paloma Jeretič, Flor Miriam Plaza-del-Arco, Donya Rooein, Patrick Schramowski, Anastassia Shaitarova, Xudong Shen, Richard Willats, Andrea Zugarini, Bertie Vidgen,
- Abstract要約: 視覚言語モデル(VLM)は、チャットアシスタントやその他の消費者向けAIアプリケーションにますます統合されている。
明確な危険にもかかわらず、VLMの安全性とマルチモーダル入力によって生じる新たなリスクを評価する研究はほとんどない。
MSTSは、40のきめ細かい危険カテゴリーにわたる400の試験プロンプトから構成される。
我々は、MSTSを10言語に翻訳し、非英語のプロンプトが安全でないモデル応答率を増加させることを示す。
- 参考スコア(独自算出の注目度): 35.86658426268927
- License:
- Abstract: Vision-language models (VLMs), which process image and text inputs, are increasingly integrated into chat assistants and other consumer AI applications. Without proper safeguards, however, VLMs may give harmful advice (e.g. how to self-harm) or encourage unsafe behaviours (e.g. to consume drugs). Despite these clear hazards, little work so far has evaluated VLM safety and the novel risks created by multimodal inputs. To address this gap, we introduce MSTS, a Multimodal Safety Test Suite for VLMs. MSTS comprises 400 test prompts across 40 fine-grained hazard categories. Each test prompt consists of a text and an image that only in combination reveal their full unsafe meaning. With MSTS, we find clear safety issues in several open VLMs. We also find some VLMs to be safe by accident, meaning that they are safe because they fail to understand even simple test prompts. We translate MSTS into ten languages, showing non-English prompts to increase the rate of unsafe model responses. We also show models to be safer when tested with text only rather than multimodal prompts. Finally, we explore the automation of VLM safety assessments, finding even the best safety classifiers to be lacking.
- Abstract(参考訳): 画像とテキスト入力を処理する視覚言語モデル(VLM)は、チャットアシスタントやその他の消費者向けAIアプリケーションにますます統合されている。
しかし、適切な保護がなければ、VLMは有害なアドバイス(例えば、自己修復の仕方)を与えたり、安全でない行動(例えば、薬物を消費する)を奨励することがある。
これらの明確な危険にもかかわらず、VLMの安全性とマルチモーダル入力によって生じる新たなリスクを評価する作業はほとんどない。
このギャップに対処するために,VLMのためのマルチモーダル安全テストスイートであるMSTSを紹介する。
MSTSは、40のきめ細かい危険カテゴリにわたる400のテストプロンプトで構成されている。
それぞれのテストプロンプトは、テキストと画像で構成されており、組み合わせることで、完全な安全でない意味が明らかになる。
MSTSでは、いくつかのオープンなVLMで明確な安全性の問題が見つかる。
また、いくつかのVLMは偶然に安全であるということも分かりました。
我々は、MSTSを10言語に翻訳し、非英語のプロンプトが安全でないモデル応答率を増加させることを示す。
また、マルチモーダルプロンプトよりもテキストでテストする場合の方が安全であることを示す。
最後に,VLMの安全性評価の自動化を検討する。
関連論文リスト
- Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - ASTRAL: Automated Safety Testing of Large Language Models [6.1050306667733185]
大規模言語モデル(LLM)は、人間のような洗練されたコンテンツを理解し、生成する能力によって最近注目を集めている。
LLMの安全性をテストするためのテストケース(即ちプロンプト)の生成と実行を自動化するツールであるASTRALを提案する。
論文 参考訳(メタデータ) (2025-01-28T18:25:11Z) - LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps [63.10843814055688]
M-ALERTは、英語、フランス語、ドイツ語、イタリア語、スペイン語の5言語で大言語モデルの安全性を評価するベンチマークである。
M-ALERTは、ALERTの詳細な分類に従って、言語ごとの高品質なプロンプトが15kあり、合計で75kである。
論文 参考訳(メタデータ) (2024-12-19T16:46:54Z) - VLSBench: Unveiling Visual Leakage in Multimodal Safety [39.344623032631475]
MLLM(Multimodal large language model)の安全性に関する懸念は、様々なアプリケーションにおいて徐々に重要な問題となっている。
従来の研究は、テキストアンラーニングを用いてMLLMを整列させることで、画像とテキストのペアで訓練されたMLLMと同等の安全性を実現するという、直感に反する現象を示している。
本研究では、テキストアライメントがVSILのマルチモーダルセーフティシナリオに十分であることを示す一方、マルチモーダルアライメントはVSILなしでのマルチモーダルセーフティシナリオに対してより有望なソリューションであることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:56:37Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors [90.73444232283371]
ShieldLMは、LLM(Large Language Models)の安全性検出装置で、一般的な安全基準に準拠している。
ShieldLMは4つのテストセットにまたがる強力なベースラインを超えており、優れたカスタマイズ性と説明可能性を示している。
論文 参考訳(メタデータ) (2024-02-26T09:43:02Z) - Safety of Multimodal Large Language Models on Images and Texts [33.97489213223888]
本稿では,MLLMの安全性の評価,攻撃,防衛に関する現在の取り組みを,画像やテキスト上で体系的に調査する。
MLLMの安全性を評価するための評価データセットと指標について概説する。
次に,MLLMの安全性に関する攻撃・防御技術について概説する。
論文 参考訳(メタデータ) (2024-02-01T05:57:10Z) - SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in
Large Language Models [15.896567445646784]
このような重要な安全性リスクを迅速かつ体系的に識別するための新しいテストスイートとしてSimpleSafetyTests(SST)を紹介します。
テストスイートは、5つのハーネス領域にわたる100のテストプロンプトで構成されており、LLMは、ほとんどのアプリケーションにおいて、コンプライアンスを拒否すべきである。
いくつかのモデルは単一の安全でない応答を与えないが、ほとんどのモデルは20%以上のプロンプトに対して安全でない応答を与え、極端に50%以上の安全でない応答を与える。
論文 参考訳(メタデータ) (2023-11-14T18:33:43Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。