論文の概要: FigStep: Jailbreaking Large Vision-language Models via Typographic
Visual Prompts
- arxiv url: http://arxiv.org/abs/2311.05608v2
- Date: Wed, 13 Dec 2023 17:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-14 20:18:19.325418
- Title: FigStep: Jailbreaking Large Vision-language Models via Typographic
Visual Prompts
- Title(参考訳): FigStep:タイポグラフィー・ビジュアル・プロンプトによる視覚言語モデルの脱獄
- Authors: Yichen Gong and Delong Ran and Jinyuan Liu and Conglei Wang and
Tianshuo Cong and Anyu Wang and Sisi Duan and Xiaoyun Wang
- Abstract要約: 大規模視覚言語モデル(VLM)に対するジェイルブレイクアルゴリズムであるFigStepを提案する。
FigStepはテキストに有害な指示を直接送る代わりに、タイポグラフィーによって有害なコンテンツを画像に変換する。
FigStepは10のトピックで500の有害なクエリに対して平均82.50%の攻撃成功率を達成することができる。
- 参考スコア(独自算出の注目度): 14.948652267916149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring the safety of artificial intelligence-generated content (AIGC) is a
longstanding topic in the artificial intelligence (AI) community, and the
safety concerns associated with Large Language Models (LLMs) have been widely
investigated. Recently, large vision-language models (VLMs) represent an
unprecedented revolution, as they are built upon LLMs but can incorporate
additional modalities (e.g., images). However, the safety of VLMs lacks
systematic evaluation, and there may be an overconfidence in the safety
guarantees provided by their underlying LLMs. In this paper, to demonstrate
that introducing additional modality modules leads to unforeseen AI safety
issues, we propose FigStep, a straightforward yet effective jailbreaking
algorithm against VLMs. Instead of feeding textual harmful instructions
directly, FigStep converts the harmful content into images through typography
to bypass the safety alignment within the textual module of the VLMs, inducing
VLMs to output unsafe responses that violate common AI safety policies. In our
evaluation, we manually review 46,500 model responses generated by 3 families
of the promising open-source VLMs, i.e., LLaVA, MiniGPT4, and CogVLM (a total
of 6 VLMs). The experimental results show that FigStep can achieve an average
attack success rate of 82.50% on 500 harmful queries in 10 topics. Moreover, we
demonstrate that the methodology of FigStep can even jailbreak GPT-4V, which
already leverages an OCR detector to filter harmful queries. Above all, our
work reveals that VLMs are vulnerable to jailbreaking attacks, which highlights
the necessity of novel safety alignments between visual and textual modalities.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)の安全性の確保は、人工知能(AI)コミュニティにおける長年の話題であり、Large Language Models(LLM)に関連する安全性に関する懸念が広く研究されている。
近年、大きな視覚言語モデル(VLM)は、LLM上に構築されているが、追加のモダリティ(画像など)を組み込むことができるため、前例のない革命を表している。
しかしながら、VLMの安全性は体系的な評価に欠けており、基盤となるLLMの安全保証に過信がある可能性がある。
本稿では、追加のモダリティモジュールの導入が予期せぬAI安全性問題を引き起こすことを示すために、VLMに対する単純かつ効果的なジェイルブレイクアルゴリズムであるFigStepを提案する。
FigStepは、テキスト有害な指示を直接送る代わりに、有害なコンテンツを画像に変換して、VLMのテキストモジュール内の安全アライメントを回避し、一般的なAI安全ポリシーに違反した安全でない応答をVLMに誘導する。
本評価では,LLaVA,MiniGPT4,CagVLM(計6VLM)の3つのオープンソースVLMの3つのファミリが生成する46,500のモデル応答を手動で検証する。
実験の結果、FigStepは10のトピックで500の有害なクエリに対して平均82.50%の攻撃成功率を達成することができた。
さらに,FIgStepの手法は,すでにOCR検出器を利用して有害なクエリをフィルタリングしているGPT-4Vでもジェイルブレイクできることを示した。
とりわけ,vlmはジェイルブレイク攻撃に対して脆弱であることが明らかとなり,視覚とテキスト間の新たな安全性アライメントの必要性が浮き彫りになった。
関連論文リスト
- Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。
一般的にジェイルブレイクと呼ばれる 敵の攻撃は 安全プロトコルをバイパスできる
LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - FC-Attack: Jailbreaking Large Vision-Language Models via Auto-Generated Flowcharts [20.323340637767327]
本稿では,自動生成フローチャートFC-Attackに基づくジェイルブレイク攻撃手法を提案する。
FC-AttackはGemini-1.5、Llaval-Next、Qwen2-VL、InternVL-2.5で90%以上の攻撃成功率を達成した。
攻撃を緩和するため、いくつかの防御策を探索し、AdaShieldが脱獄性能を大幅に低下させるが、実用コストは低下する。
論文 参考訳(メタデータ) (2025-02-28T13:59:11Z) - Zero-Shot Defense Against Toxic Images via Inherent Multimodal Alignment in LVLMs [10.463762448166714]
LVLM固有のマルチモーダルアライメントを利用してゼロショット有毒画像検出を行う軽量なSafeCLIPを提案する。
実験の結果、SafeCLIPの防衛成功率は66.9%で、偽陽性率は3.2%、オーバーヘッドは7.2%であった。
我々の研究は、本質的なマルチモーダルアライメントを活用することで、効率よく低コストなLVLM安全性が得られることを示した。
論文 参考訳(メタデータ) (2025-02-25T06:51:16Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - Safe + Safe = Unsafe? Exploring How Safe Images Can Be Exploited to Jailbreak Large Vision-Language Models [80.77246856082742]
Safety Snowball Agent (SSA) は、エージェントの自律的およびツール使用能力をジェイルブレイクLVLMに活用する新しいエージェントベースのフレームワークである。
我々の実験では、ほぼすべての画像を用いてLVLMを誘導し、安全でないコンテンツを生成し、最新のLVLMに対して高いジェイルブレイク率を達成できることを示した。
論文 参考訳(メタデータ) (2024-11-18T11:58:07Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.46372846359694]
IDEATORは、ブラックボックスジェイルブレイク攻撃のための悪意のある画像テキストペアを自律的に生成する新しいジェイルブレイク手法である。
最近リリースされたVLM11のベンチマーク結果から,安全性の整合性に大きなギャップがあることが判明した。
例えば、GPT-4oで46.31%、Claude-3.5-Sonnetで19.65%のASRを達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time [12.160713548659457]
対向的な視覚入力は、容易にVLM防御機構をバイパスすることができる。
本稿では,入力された視覚的内容と出力応答を評価する2相推論時間アライメントフレームワークを提案する。
実験の結果, ETAは無害性, 有用性, 効率の点で, ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T07:21:43Z) - PathSeeker: Exploring LLM Security Vulnerabilities with a Reinforcement Learning-Based Jailbreak Approach [25.31933913962953]
大規模言語モデル(LLM)が広く普及し、セキュリティに対する懸念が高まっている。
そこで我々は,迷路から逃れるネズミのゲームに触発された新しいブラックボックスジェイルブレイク手法PathSeekerを紹介した。
提案手法は,13の商用およびオープンソース LLM を対象としたテストにおいて,最先端の攻撃技術として5つの性能を発揮した。
論文 参考訳(メタデータ) (2024-09-21T15:36:26Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - AdaPPA: Adaptive Position Pre-Fill Jailbreak Attack Approach Targeting LLMs [34.221522224051846]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃を適応的に行うための適応的位置補充型ジェイルブレイク攻撃手法を提案する。
提案手法は,提案モデルの命令追従能力を利用して,まず安全なコンテンツを出力し,次にその物語シフト能力を利用して有害なコンテンツを生成する。
本手法は,従来の手法と比較して,広く認識されているセキュアモデル(Llama2)において,攻撃成功率を47%向上させることができる。
論文 参考訳(メタデータ) (2024-09-11T00:00:58Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt [60.54666043358946]
本稿では,テキストと視覚のプロンプトを協調的に最適化することにより,ジェイルブレイクを実行するバイモーダル・アドバイサル・プロンプト・アタック(BAP)を提案する。
特に,大規模言語モデルを用いてジェイルブレイクの失敗を分析し,テキストのプロンプトを洗練させるために連鎖推論を採用する。
論文 参考訳(メタデータ) (2024-06-06T13:00:42Z) - Safety Alignment for Vision Language Models [21.441662865727448]
安全モジュールの追加により視覚言語モデル(VLM)の視覚的モダリティ安全アライメントを強化する。
提案手法は使いやすさ,高い柔軟性,強力な制御性を備え,モデル全体の性能に最小限の影響を与えながら安全性を向上させる。
論文 参考訳(メタデータ) (2024-05-22T12:21:27Z) - Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models [107.88745040504887]
マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。
そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽し,増幅する,HADESという新しいジェイルブレイク手法を提案する。
実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-03-14T18:24:55Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Adversarial Visual-Instructions [52.9787902653558]
LVLM(Large Vision-Language Models)は、視覚的インストラクションに対するユーザからの対応において、大きな進歩を見せている。
LVLMのこのような脅威に対する堅牢性の重要性にもかかわらず、この分野の現在の研究は限られている。
AVIBenchは、様々な対向的な視覚的命令に直面した場合のLVLMの堅牢性を分析するために設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T12:51:07Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。