論文の概要: How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for
Vision LLMs
- arxiv url: http://arxiv.org/abs/2311.16101v1
- Date: Mon, 27 Nov 2023 18:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 13:40:11.848697
- Title: How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for
Vision LLMs
- Title(参考訳): この画像のユニコーンは何人いますか。
vision llmの安全性評価ベンチマーク
- Authors: Haoqin Tu, Chenhang Cui, Zijun Wang, Yiyang Zhou, Bingchen Zhao,
Junlin Han, Wangchunshu Zhou, Huaxiu Yao, Cihang Xie
- Abstract要約: 本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。
本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
- 参考スコア(独自算出の注目度): 55.91371032213854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work focuses on the potential of Vision LLMs (VLLMs) in visual
reasoning. Different from prior studies, we shift our focus from evaluating
standard performance to introducing a comprehensive safety evaluation suite,
covering both out-of-distribution (OOD) generalization and adversarial
robustness. For the OOD evaluation, we present two novel VQA datasets, each
with one variant, designed to test model performance under challenging
conditions. In exploring adversarial robustness, we propose a straightforward
attack strategy for misleading VLLMs to produce visual-unrelated responses.
Moreover, we assess the efficacy of two jailbreaking strategies, targeting
either the vision or language component of VLLMs. Our evaluation of 21 diverse
models, ranging from open-source VLLMs to GPT-4V, yields interesting
observations: 1) Current VLLMs struggle with OOD texts but not images, unless
the visual information is limited; and 2) These VLLMs can be easily misled by
deceiving vision encoders only, and their vision-language training often
compromise safety protocols. We release this safety evaluation suite at
https://github.com/UCSC-VLAA/vllm-safety-benchmark.
- Abstract(参考訳): 本研究は視覚推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。
従来の研究と異なり、我々は標準性能の評価から総合的な安全評価スイートの導入に焦点を移し、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーした。
ood評価のために,課題条件下でモデル性能をテストするために設計された2つの新しいvqaデータセットを提示する。
本稿では,視覚的無関係な応答を生成するために,VLLMを誤誘導する攻撃戦略を提案する。
さらに,VLLMの視覚的,言語的要素を標的とした2つのジェイルブレイク戦略の有効性を評価する。
オープンソース VLLM から GPT-4V まで,21種類の多種多様なモデルの評価を行った。
1)現在のVLLMは、視覚情報に制限がない限り、OODテキストと競合するが画像ではない。
2)これらのVLLMは、視覚エンコーダのみを誤認することで容易に誤認でき、視覚言語訓練が安全プロトコルを損なうことがしばしばある。
我々はこの安全性評価スイートをhttps://github.com/UCSC-VLAA/vllm-safety-benchmarkでリリースします。
関連論文リスト
- Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - PSA-VLM: Enhancing Vision-Language Model Safety through Progressive Concept-Bottleneck-Driven Alignment [28.008884416277954]
本稿では,視覚的モダリティの安全性向上を目的とした,プログレッシブなコンセプトベースアライメント戦略であるPSA-VLMを提案する。
提案手法は,VLMの安全性ベンチマークにおいて,最先端の安全性を実現する。
論文 参考訳(メタデータ) (2024-11-18T13:01:57Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Safety Alignment for Vision Language Models [21.441662865727448]
安全モジュールの追加により視覚言語モデル(VLM)の視覚的モダリティ安全アライメントを強化する。
提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。
論文 参考訳(メタデータ) (2024-05-22T12:21:27Z) - Learning To See But Forgetting To Follow: Visual Instruction Tuning Makes LLMs More Prone To Jailbreak Attacks [41.213482317141356]
画像理解機能を備えた大規模言語モデルの拡張は、高パフォーマンスな視覚言語モデル(VLM)のブームをもたらした。
本稿では,3つの最先端VLMに対するジェイルブレイクの影響を,それぞれ異なるモデリング手法を用いて検討する。
論文 参考訳(メタデータ) (2024-05-07T15:29:48Z) - Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models [39.56233272612982]
現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。
最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。
この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
論文 参考訳(メタデータ) (2024-02-03T16:43:42Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。