論文の概要: Image-to-Text Logic Jailbreak: Your Imagination can Help You Do Anything
- arxiv url: http://arxiv.org/abs/2407.02534v1
- Date: Mon, 1 Jul 2024 16:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 18:43:42.959833
- Title: Image-to-Text Logic Jailbreak: Your Imagination can Help You Do Anything
- Title(参考訳): Image-to-Text Logic Jailbreak:イマジネーションは何でもできる
- Authors: Xiaotian Zou, Yongkang Chen,
- Abstract要約: 本稿では,意味のある画像からテキストへの論理的ジェイルブレイクの問題について考察する。
大規模ビジュアル言語モデルを用いたテキストからテキストへのジェイルブレイクのためのフレームワークを開発した。
我々の研究は、画像からテキストへのジェイルブレイクに関する現在のVLMの重大な脆弱性を明らかにしている。
- 参考スコア(独自算出の注目度): 0.7366405857677227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Visual Language Models (VLMs) such as GPT-4 have achieved remarkable success in generating comprehensive and nuanced responses, surpassing the capabilities of large language models. However, with the integration of visual inputs, new security concerns emerge, as malicious attackers can exploit multiple modalities to achieve their objectives. This has led to increasing attention on the vulnerabilities of VLMs to jailbreak. Most existing research focuses on generating adversarial images or nonsensical image collections to compromise these models. However, the challenge of leveraging meaningful images to produce targeted textual content using the VLMs' logical comprehension of images remains unexplored. In this paper, we explore the problem of logical jailbreak from meaningful images to text. To investigate this issue, we introduce a novel dataset designed to evaluate flowchart image jailbreak. Furthermore, we develop a framework for text-to-text jailbreak using VLMs. Finally, we conduct an extensive evaluation of the framework on GPT-4o and GPT-4-vision-preview, with jailbreak rates of 92.8% and 70.0%, respectively. Our research reveals significant vulnerabilities in current VLMs concerning image-to-text jailbreak. These findings underscore the need for a deeper examination of the security flaws in VLMs before their practical deployment.
- Abstract(参考訳): GPT-4のような大規模ビジュアル言語モデル(VLM)は、大規模言語モデルの能力を超え、包括的でニュアンスのある応答を生成することに成功している。
しかし、視覚的な入力の統合により、悪意のある攻撃者が目的を達成するために複数のモダリティを活用できるため、新たなセキュリティ上の懸念が浮かび上がっている。
これにより、VLMのジェイルブレイクに対する脆弱性に対する関心が高まった。
既存の研究のほとんどは、これらのモデルを妥協するために、敵対的な画像や非感覚的な画像コレクションを生成することに焦点を当てている。
しかし、VLMの論理的理解を用いて、意味のある画像を活用してターゲットとなるテキストコンテンツを作成するという課題は、まだ解明されていない。
本稿では,意味のある画像からテキストへの論理的ジェイルブレイクの問題について検討する。
そこで本研究では,フローチャート画像のジェイルブレイクを評価するための新しいデータセットを提案する。
さらに,VLMを用いたテキスト・テキスト・ジェイルブレイクのためのフレームワークを開発する。
最後に, GPT-4o と GPT-4-vision-preview のフレームワークについて, それぞれ92.8% と 70.0% のジェイルブレイク率で広範な評価を行った。
我々の研究は、画像からテキストへのジェイルブレイクに関する現在のVLMの重大な脆弱性を明らかにしている。
これらの知見は、実際の配備前にVLMのセキュリティ欠陥のより深い調査の必要性を浮き彫りにした。
関連論文リスト
- SQL Injection Jailbreak: a structural disaster of large language models [71.55108680517422]
LLMによる入力プロンプトの構築を利用して、ユーザプロンプトにジェイルブレイク情報を注入する新しいジェイルブレイク手法を提案する。
提案手法は,AdvBench の文脈でよく知られた5つのオープンソース LLM に対する攻撃成功率を約100% 達成する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。
平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Can Large Language Models Automatically Jailbreak GPT-4V? [64.04997365446468]
本稿では,迅速な最適化にインスパイアされた革新的な自動ジェイルブレイク技術であるAutoJailbreakを紹介する。
実験の結果,AutoJailbreakは従来の手法をはるかに上回り,95.3%を超えるアタック成功率(ASR)を達成した。
この研究は、GPT-4Vのセキュリティ強化に光を当て、LCMがGPT-4Vの完全性向上に活用される可能性を強調している。
論文 参考訳(メタデータ) (2024-07-23T17:50:45Z) - Figure it Out: Analyzing-based Jailbreak Attack on Large Language Models [21.252514293436437]
大規模言語モデル(LLM)に対するジェイルブレイク攻撃に対する分析ベースジェイルブレイク(ABJ)を提案する。
ABJはGPT-4-turbo-0409上で94.8%の攻撃成功率(ASR)と1.06の攻撃効率(AE)を達成する。
論文 参考訳(メタデータ) (2024-07-23T06:14:41Z) - Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。
総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文 参考訳(メタデータ) (2024-06-28T11:35:54Z) - Red Teaming GPT-4V: Are GPT-4V Safe Against Uni/Multi-Modal Jailbreak Attacks? [39.87609532392292]
この研究は、11の異なる安全ポリシーをカバーする1445の有害な質問を含む包括的なジェイルブレイク評価データセットを構築している。
GPT4 と GPT-4V は、オープンソースの LLM や MLLM と比較して、ジェイルブレイク攻撃に対する堅牢性を向上している。
Llama2とQwen-VL-Chatは、他のオープンソースモデルよりも堅牢である。
論文 参考訳(メタデータ) (2024-04-04T12:38:14Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - Comprehensive Assessment of Jailbreak Attacks Against LLMs [28.58973312098698]
4つのカテゴリから13の最先端ジェイルブレイク法,16の違反カテゴリから160の質問,6つの人気のあるLDMについて検討した。
実験の結果, 最適化されたジェイルブレイクは高い攻撃成功率を確実に達成することが示された。
攻撃性能と効率のトレードオフについて論じるとともに、脱獄プロンプトの転送性は依然として維持可能であることを示す。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。