論文の概要: Retention Score: Quantifying Jailbreak Risks for Vision Language Models
- arxiv url: http://arxiv.org/abs/2412.17544v1
- Date: Mon, 23 Dec 2024 13:05:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:59:01.739177
- Title: Retention Score: Quantifying Jailbreak Risks for Vision Language Models
- Title(参考訳): 保持スコア:ビジョン言語モデルにおける脱獄リスクの定量化
- Authors: Zaitang Li, Pin-Yu Chen, Tsung-Yi Ho,
- Abstract要約: VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
- 参考スコア(独自算出の注目度): 60.48306899271866
- License:
- Abstract: The emergence of Vision-Language Models (VLMs) is a significant advancement in integrating computer vision with Large Language Models (LLMs) to enhance multi-modal machine learning capabilities. However, this progress has also made VLMs vulnerable to sophisticated adversarial attacks, raising concerns about their reliability. The objective of this paper is to assess the resilience of VLMs against jailbreak attacks that can compromise model safety compliance and result in harmful outputs. To evaluate a VLM's ability to maintain its robustness against adversarial input perturbations, we propose a novel metric called the \textbf{Retention Score}. Retention Score is a multi-modal evaluation metric that includes Retention-I and Retention-T scores for quantifying jailbreak risks in visual and textual components of VLMs. Our process involves generating synthetic image-text pairs using a conditional diffusion model. These pairs are then predicted for toxicity score by a VLM alongside a toxicity judgment classifier. By calculating the margin in toxicity scores, we can quantify the robustness of the VLM in an attack-agnostic manner. Our work has four main contributions. First, we prove that Retention Score can serve as a certified robustness metric. Second, we demonstrate that most VLMs with visual components are less robust against jailbreak attacks than the corresponding plain VLMs. Additionally, we evaluate black-box VLM APIs and find that the security settings in Google Gemini significantly affect the score and robustness. Moreover, the robustness of GPT4V is similar to the medium settings of Gemini. Finally, our approach offers a time-efficient alternative to existing adversarial attack methods and provides consistent model robustness rankings when evaluated on VLMs including MiniGPT-4, InstructBLIP, and LLaVA.
- Abstract(参考訳): VLM(Vision-Language Models)の出現は、コンピュータビジョンとLLM(Large Language Models)を統合することで、マルチモーダル機械学習能力を向上する大きな進歩である。
しかし、この進歩により、VLMは高度な敵攻撃に対して脆弱になり、その信頼性に対する懸念が高まった。
本研究の目的は、モデル安全コンプライアンスを侵害し有害な出力をもたらすジェイルブレイク攻撃に対するVLMのレジリエンスを評価することである。
VLMの逆入力摂動に対する頑健性を維持する能力を評価するために, textbf{Retention Score} と呼ばれる新しい計量法を提案する。
Retention Scoreは、VLMの視覚的およびテキスト的コンポーネントにおけるジェイルブレイクリスクを定量化する、Retention-IとRetention-Tスコアを含むマルチモーダル評価指標である。
本プロセスでは,条件付き拡散モデルを用いて合成画像テキストペアを生成する。
これらのペアは、毒性判定分類器と共に、VLMによって毒性スコアが予測される。
毒性スコアのマージンを計算することで、VLMのロバスト性を攻撃非依存的に定量化することができる。
私たちの仕事は4つの主な貢献があります。
まず、Retention Scoreが認証されたロバストネス指標として機能することを証明する。
第2に、視覚的コンポーネントを持つほとんどのVLMは、対応するプレーンなVLMよりもジェイルブレイク攻撃に対してロバストであることを示す。
さらに,ブラックボックスのVLM APIを評価し,Google Geminiのセキュリティ設定がスコアやロバスト性に大きく影響していることを確認した。
さらに、GPT4Vの堅牢性は、Geminiの中間設定と似ている。
最後に,本手法は,既存の攻撃手法に代わる時間効率のよい代替手段を提供し,MiniGPT-4,InstructBLIP,LLaVAなどのVLM上での評価において,一貫したモデルロバスト性ランキングを提供する。
関連論文リスト
- ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time [12.160713548659457]
対向的な視覚入力は、容易にVLM防御機構をバイパスすることができる。
本稿では,入力された視覚的内容と出力応答を評価する2相推論時間アライメントフレームワークを提案する。
実験の結果, ETAは無害性, 有用性, 効率の点で, ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T07:21:43Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Adversarial Visual-Instructions [52.9787902653558]
LVLM(Large Vision-Language Models)は、視覚的インストラクションに対するユーザからの対応において、大きな進歩を見せている。
LVLMのこのような脅威に対する堅牢性の重要性にもかかわらず、この分野の現在の研究は限られている。
AVIBenchは、様々な対向的な視覚的命令に直面した場合のLVLMの堅牢性を分析するために設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T12:51:07Z) - How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for
Vision LLMs [55.91371032213854]
本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。
本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
論文 参考訳(メタデータ) (2023-11-27T18:59:42Z) - FigStep: Jailbreaking Large Vision-language Models via Typographic
Visual Prompts [14.948652267916149]
大規模視覚言語モデル(VLM)に対するジェイルブレイクアルゴリズムであるFigStepを提案する。
FigStepはテキストに有害な指示を直接送る代わりに、タイポグラフィーによって有害なコンテンツを画像に変換する。
FigStepは10のトピックで500の有害なクエリに対して平均82.50%の攻撃成功率を達成することができる。
論文 参考訳(メタデータ) (2023-11-09T18:59:11Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。