論文の概要: Image-to-Text Logic Jailbreak: Your Imagination can Help You Do Anything
- arxiv url: http://arxiv.org/abs/2407.02534v2
- Date: Mon, 26 Aug 2024 22:56:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 18:59:20.278545
- Title: Image-to-Text Logic Jailbreak: Your Imagination can Help You Do Anything
- Title(参考訳): Image-to-Text Logic Jailbreak:イマジネーションは何でもできる
- Authors: Xiaotian Zou, Ke Li, Yongkang Chen,
- Abstract要約: 本稿では,VLMの論理に基づくフローチャートジェイルブレイク機能を評価するための,新しいデータセットFlow-JDを提案する。
我々は、GPT-4o、GPT-4V、その他の5つのSOTAオープンソースVLMに対して広範囲に評価を行い、ジェイルブレイク率は92.8%である。
我々の研究は、画像からテキストへのジェイルブレイクに関する現在のVLMの重大な脆弱性を明らかにし、これらの発見は、堅牢で効果的な将来の防衛を開発する上での緊急性を強調している。
- 参考スコア(独自算出の注目度): 4.477597131613079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Visual Language Model\textbfs (VLMs) such as GPT-4V have achieved remarkable success in generating comprehensive and nuanced responses. Researchers have proposed various benchmarks for evaluating the capabilities of VLMs. With the integration of visual and text inputs in VLMs, new security issues emerge, as malicious attackers can exploit multiple modalities to achieve their objectives. This has led to increasing attention on the vulnerabilities of VLMs to jailbreak. Most existing research focuses on generating adversarial images or nonsensical image to jailbreak these models. However, no researchers evaluate whether logic understanding capabilities of VLMs in flowchart can influence jailbreak. Therefore, to fill this gap, this paper first introduces a novel dataset Flow-JD specifically designed to evaluate the logic-based flowchart jailbreak capabilities of VLMs. We conduct an extensive evaluation on GPT-4o, GPT-4V, other 5 SOTA open source VLMs and the jailbreak rate is up to 92.8%. Our research reveals significant vulnerabilities in current VLMs concerning image-to-text jailbreak and these findings underscore the the urgency for the development of robust and effective future defenses.
- Abstract(参考訳): GPT-4Vのような大規模なビジュアル言語モデル\textbfs (VLM) は、包括的でニュアンスのある応答を生成することに成功している。
研究者は、VLMの能力を評価するための様々なベンチマークを提案している。
VLMへの視覚的入力とテキスト入力の統合により、悪意のある攻撃者が目的を達成するために複数のモダリティを活用できるため、新たなセキュリティ問題が発生する。
これにより、VLMのジェイルブレイクに対する脆弱性に対する関心が高まった。
既存の研究は、これらのモデルをジェイルブレイクするために、敵対的な画像や非感覚的な画像を生成することに重点を置いている。
しかし、フローチャートにおけるVLMの論理理解能力がジェイルブレイクに影響を及ぼすかどうかを研究者は評価していない。
そこで本研究では,このギャップを埋めるために,VLMの論理ベースのフローチャートジェイルブレイク機能を評価するために設計された,新しいデータセットFlow-JDを提案する。
我々は、GPT-4o、GPT-4V、その他の5つのSOTAオープンソースVLMに対して広範囲に評価を行い、ジェイルブレイク率は92.8%である。
我々の研究は、画像からテキストへのジェイルブレイクに関する現在のVLMの重大な脆弱性を明らかにし、これらの発見は、堅牢で効果的な将来の防衛を開発する上での緊急性を強調している。
関連論文リスト
- SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。
提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Can Large Language Models Automatically Jailbreak GPT-4V? [64.04997365446468]
本稿では,迅速な最適化にインスパイアされた革新的な自動ジェイルブレイク技術であるAutoJailbreakを紹介する。
実験の結果,AutoJailbreakは従来の手法をはるかに上回り,95.3%を超えるアタック成功率(ASR)を達成した。
この研究は、GPT-4Vのセキュリティ強化に光を当て、LCMがGPT-4Vの完全性向上に活用される可能性を強調している。
論文 参考訳(メタデータ) (2024-07-23T17:50:45Z) - Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models [21.252514293436437]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃に対する分析ベースジェイルブレイク(ABJ)を提案する。
ABJはGPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成する。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks? [39.87609532392292]
この研究は、11の異なる安全ポリシーをカバーする1445の有害な質問を含む包括的なジェイルブレイク評価データセットを構築している。
GPT4 と GPT-4V は、オープンソースの LLM や MLLM と比較して、ジェイルブレイク攻撃に対する堅牢性を向上している。
Llama2とQwen-VL-Chatは、他のオープンソースモデルよりも堅牢である。
論文 参考訳(メタデータ) (2024-04-04T12:38:14Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。