論文の概要: REVEAL: Multi-turn Evaluation of Image-Input Harms for Vision LLM
- arxiv url: http://arxiv.org/abs/2505.04673v1
- Date: Wed, 07 May 2025 10:09:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.626072
- Title: REVEAL: Multi-turn Evaluation of Image-Input Harms for Vision LLM
- Title(参考訳): REVEAL:視覚LLMのための画像入力ハームのマルチターン評価
- Authors: Madhur Jindal, Saurabh Deshpande,
- Abstract要約: 視覚大言語モデル(VLLM)における画像入力障害を評価するためのスケーラブルで自動化されたパイプラインであるREVEAL Frameworkを紹介する。
VLLMs, GPT-4o, Llama-3.2, Qwen2-VL, Phi3.5V, Pixtralの5種を, 性的被害, 暴力, 誤報の3つの重要な危険カテゴリーで評価した。
GPT-4oは、我々の安全ユーザビリティ指標(SUI)で測定された最もバランスの取れた性能を示し、Pixtralに近づいた。
- 参考スコア(独自算出の注目度): 0.098314893665023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Large Language Models (VLLMs) represent a significant advancement in artificial intelligence by integrating image-processing capabilities with textual understanding, thereby enhancing user interactions and expanding application domains. However, their increased complexity introduces novel safety and ethical challenges, particularly in multi-modal and multi-turn conversations. Traditional safety evaluation frameworks, designed for text-based, single-turn interactions, are inadequate for addressing these complexities. To bridge this gap, we introduce the REVEAL (Responsible Evaluation of Vision-Enabled AI LLMs) Framework, a scalable and automated pipeline for evaluating image-input harms in VLLMs. REVEAL includes automated image mining, synthetic adversarial data generation, multi-turn conversational expansion using crescendo attack strategies, and comprehensive harm assessment through evaluators like GPT-4o. We extensively evaluated five state-of-the-art VLLMs, GPT-4o, Llama-3.2, Qwen2-VL, Phi3.5V, and Pixtral, across three important harm categories: sexual harm, violence, and misinformation. Our findings reveal that multi-turn interactions result in significantly higher defect rates compared to single-turn evaluations, highlighting deeper vulnerabilities in VLLMs. Notably, GPT-4o demonstrated the most balanced performance as measured by our Safety-Usability Index (SUI) followed closely by Pixtral. Additionally, misinformation emerged as a critical area requiring enhanced contextual defenses. Llama-3.2 exhibited the highest MT defect rate ($16.55 \%$) while Qwen2-VL showed the highest MT refusal rate ($19.1 \%$).
- Abstract(参考訳): Vision Large Language Models (VLLM) は、画像処理機能とテキスト理解を統合し、ユーザインタラクションを強化し、アプリケーションドメインを拡張することで、人工知能の大幅な進歩を表している。
しかし、その複雑さの増大は、特にマルチモーダルとマルチターンの会話において、新しい安全性と倫理的課題をもたらす。
テキストベースのシングルターンインタラクション用に設計された従来の安全性評価フレームワークは、これらの複雑さに対処するには不十分である。
このギャップを埋めるために、VLLMのイメージインプット障害を評価するスケーラブルで自動化されたパイプラインであるREVEAL(Responsible Evaluation of Vision-Enabled AI LLMs)フレームワークを導入する。
REVEALには、自動画像マイニング、合成対向データ生成、クレセントエンド攻撃戦略を用いたマルチターン会話拡張、GPT-4oのような評価器による包括的危害評価が含まれる。
VLLMs, GPT-4o, Llama-3.2, Qwen2-VL, Phi3.5V, Pixtralの5種を, 性的被害, 暴力, 誤報の3つの重要な危険カテゴリーで評価した。
以上の結果から,VLLMの脆弱性は,単ターン評価よりも多ターン相互作用の方が有意に高いことが判明した。
特に、GPT-4oは、我々のSUI(Safety-Usability Index)で測定された最もバランスの取れた性能を示し、Pixtralに近づいた。
さらに、誤報は文脈防衛の強化を必要とする重要な領域として現れた。
Llama-3.2 は最高 MT 欠陥率 (16.55 \%$) を示し、Qwen2-VL は最高 MT 拒絶率 (19.1 \%$) を示した。
関連論文リスト
- VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。
本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文 参考訳(メタデータ) (2025-01-31T10:37:48Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。
MLLMのコンフリクトのシミュレーションと評価を目的としたベンチマークを確立するため,人間のループ品質制御を付加した自動パイプラインを導入する。
各種モデルファミリーにおける9つの代表MLLMのコンフリクト分解能を評価し,テキストクエリに顕著なオーバー信頼度を求める。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z) - ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time [12.160713548659457]
対向的な視覚入力は、容易にVLM防御機構をバイパスすることができる。
本稿では,入力された視覚的内容と出力応答を評価する2相推論時間アライメントフレームワークを提案する。
実験の結果, ETAは無害性, 有用性, 効率の点で, ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T07:21:43Z) - DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。
彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。
本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文 参考訳(メタデータ) (2024-09-26T16:31:50Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。