論文の概要: How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for
Vision LLMs
- arxiv url: http://arxiv.org/abs/2311.16101v1
- Date: Mon, 27 Nov 2023 18:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 13:40:11.848697
- Title: How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for
Vision LLMs
- Title(参考訳): この画像のユニコーンは何人いますか。
vision llmの安全性評価ベンチマーク
- Authors: Haoqin Tu, Chenhang Cui, Zijun Wang, Yiyang Zhou, Bingchen Zhao,
Junlin Han, Wangchunshu Zhou, Huaxiu Yao, Cihang Xie
- Abstract要約: 本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。
本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
- 参考スコア(独自算出の注目度): 55.91371032213854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work focuses on the potential of Vision LLMs (VLLMs) in visual
reasoning. Different from prior studies, we shift our focus from evaluating
standard performance to introducing a comprehensive safety evaluation suite,
covering both out-of-distribution (OOD) generalization and adversarial
robustness. For the OOD evaluation, we present two novel VQA datasets, each
with one variant, designed to test model performance under challenging
conditions. In exploring adversarial robustness, we propose a straightforward
attack strategy for misleading VLLMs to produce visual-unrelated responses.
Moreover, we assess the efficacy of two jailbreaking strategies, targeting
either the vision or language component of VLLMs. Our evaluation of 21 diverse
models, ranging from open-source VLLMs to GPT-4V, yields interesting
observations: 1) Current VLLMs struggle with OOD texts but not images, unless
the visual information is limited; and 2) These VLLMs can be easily misled by
deceiving vision encoders only, and their vision-language training often
compromise safety protocols. We release this safety evaluation suite at
https://github.com/UCSC-VLAA/vllm-safety-benchmark.
- Abstract(参考訳): 本研究は視覚推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。
従来の研究と異なり、我々は標準性能の評価から総合的な安全評価スイートの導入に焦点を移し、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーした。
ood評価のために,課題条件下でモデル性能をテストするために設計された2つの新しいvqaデータセットを提示する。
本稿では,視覚的無関係な応答を生成するために,VLLMを誤誘導する攻撃戦略を提案する。
さらに,VLLMの視覚的,言語的要素を標的とした2つのジェイルブレイク戦略の有効性を評価する。
オープンソース VLLM から GPT-4V まで,21種類の多種多様なモデルの評価を行った。
1)現在のVLLMは、視覚情報に制限がない限り、OODテキストと競合するが画像ではない。
2)これらのVLLMは、視覚エンコーダのみを誤認することで容易に誤認でき、視覚言語訓練が安全プロトコルを損なうことがしばしばある。
我々はこの安全性評価スイートをhttps://github.com/UCSC-VLAA/vllm-safety-benchmarkでリリースします。
関連論文リスト
- Enhancing Vision-Language Model Safety through Progressive Concept-Bottleneck-Driven Alignment [21.441662865727448]
本稿では,視覚的モダリティの安全性向上を目的とした,プログレッシブなコンセプトベースアライメント戦略であるPSA-VLMを提案する。
提案手法は,VLMの安全性ベンチマークにおいて,最先端の安全性を実現する。
論文 参考訳(メタデータ) (2024-11-18T13:01:57Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Safety Alignment for Vision Language Models [21.441662865727448]
安全モジュールの追加により視覚言語モデル(VLM)の視覚的モダリティ安全アライメントを強化する。
提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。
論文 参考訳(メタデータ) (2024-05-22T12:21:27Z) - Learning To See But Forgetting To Follow: Visual Instruction Tuning Makes LLMs More Prone To Jailbreak Attacks [41.213482317141356]
画像理解機能を備えた大規模言語モデルの拡張は、高パフォーマンスな視覚言語モデル(VLM)のブームをもたらした。
本稿では,3つの最先端VLMに対するジェイルブレイクの影響を,それぞれ異なるモデリング手法を用いて検討する。
論文 参考訳(メタデータ) (2024-05-07T15:29:48Z) - AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Adversarial Visual-Instructions [52.9787902653558]
LVLM(Large Vision-Language Models)は、視覚的インストラクションに対するユーザからの対応において、大きな進歩を見せている。
LVLMのこのような脅威に対する堅牢性の重要性にもかかわらず、この分野の現在の研究は限られている。
AVIBenchは、様々な対向的な視覚的命令に直面した場合のLVLMの堅牢性を分析するために設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T12:51:07Z) - Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models [39.56233272612982]
現在の視覚大言語モデル(VLLM)は、有害なコンテンツを生成する傾向があり、ジェイルブレイク攻撃に弱い。
最初の分析では、視覚言語指導の微調整中に有害なデータが存在することが原因であることが判明した。
この問題に対処するために、まず、様々な有害なカテゴリをカバーする視覚言語安全な命令追従データセットVLGuardをキュレートする。
論文 参考訳(メタデータ) (2024-02-03T16:43:42Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - LVLM-eHub: A Comprehensive Evaluation Benchmark for Large
Vision-Language Models [55.304181390027274]
本稿では,LVLM評価ハブ(LVLM-eHub)の構築により,一般公開された大規模マルチモーダルモデルの包括的評価を行う。
我々のLVLM-eHubは、InstructBLIPやMiniGPT-4などの代表的LVLMから成り、定量的能力評価とオンラインアリーナプラットフォームによって徹底的に評価されている。
この研究は、いくつかの革新的な発見を明らかにしている。まず、インストラクタBLIPのような膨大なドメイン内データを持つ命令調整型LVLMは、多くの既存のタスクを過度にオーバーフィットさせ、オープンワールドのシナリオでは一般化が不十分である。
論文 参考訳(メタデータ) (2023-06-15T16:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。