論文の概要: Automatic Jailbreaking of the Text-to-Image Generative AI Systems
- arxiv url: http://arxiv.org/abs/2405.16567v1
- Date: Sun, 26 May 2024 13:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 20:29:27.965375
- Title: Automatic Jailbreaking of the Text-to-Image Generative AI Systems
- Title(参考訳): テキスト・画像生成型AIシステムの自動脱獄
- Authors: Minseon Kim, Hyomin Lee, Boqing Gong, Huishuai Zhang, Sung Ju Hwang,
- Abstract要約: 本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。
安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。
当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
- 参考スコア(独自算出の注目度): 76.9697122883554
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent AI systems have shown extremely powerful performance, even surpassing human performance, on various tasks such as information retrieval, language generation, and image generation based on large language models (LLMs). At the same time, there are diverse safety risks that can cause the generation of malicious contents by circumventing the alignment in LLMs, which are often referred to as jailbreaking. However, most of the previous works only focused on the text-based jailbreaking in LLMs, and the jailbreaking of the text-to-image (T2I) generation system has been relatively overlooked. In this paper, we first evaluate the safety of the commercial T2I generation systems, such as ChatGPT, Copilot, and Gemini, on copyright infringement with naive prompts. From this empirical study, we find that Copilot and Gemini block only 12\% and 17\% of the attacks with naive prompts, respectively, while ChatGPT blocks 84\% of them. Then, we further propose a stronger automated jailbreaking pipeline for T2I generation systems, which produces prompts that bypass their safety guards. Our automated jailbreaking framework leverages an LLM optimizer to generate prompts to maximize degree of violation from the generated images without any weight updates or gradient computation. Surprisingly, our simple yet effective approach successfully jailbreaks the ChatGPT with 11.0\% block rate, making it generate copyrighted contents in 76\% of the time. Finally, we explore various defense strategies, such as post-generation filtering and machine unlearning techniques, but found that they were inadequate, which suggests the necessity of stronger defense mechanisms.
- Abstract(参考訳): 最近のAIシステムは、情報検索、言語生成、大規模言語モデル(LLM)に基づく画像生成といった様々なタスクにおいて、人的パフォーマンスを超越した、非常に強力なパフォーマンスを示している。
同時に、LLMのアライメントを回避して悪意のあるコンテンツの発生を引き起こす様々な安全性リスクがあり、これはしばしばジェイルブレイクと呼ばれる。
しかし、以前の作品のほとんどはLLMにおけるテキストベースのジェイルブレイクのみに焦点を当てており、テキスト・ツー・イメージ(T2I)生成システムのジェイルブレイクは比較的見過ごされている。
本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの著作権侵害における安全性を,ナイーブなプロンプトで評価する。
この実証実験から、コピロとジェミニがそれぞれ12%と17%の攻撃しかブロックしていないのに対し、ChatGPTは84%の攻撃をブロックしていることがわかった。
さらに、安全ガードをバイパスするプロンプトを生成するT2I生成システムのための、より強力な自動脱獄パイプラインを提案する。
我々の自動ジェイルブレイクフレームワークは、LLMオプティマイザを利用して、重み付けや勾配計算なしに生成された画像からの違反の程度を最大化するプロンプトを生成する。
驚いたことに、私たちの単純な効果的なアプローチは、ChatGPTを11.0\%のブロックレートでジェイルブレイクし、76\%の時間で著作権のあるコンテンツを生成します。
最後に, ポストジェネレーションフィルタリングやマシンアンラーニング技術など, 様々な防衛戦略を探求するが, それらが不十分であることから, より強力な防御機構の必要性が示唆された。
関連論文リスト
- IDEATOR: Jailbreaking VLMs Using VLMs [68.4760494411687]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。
IDEATORはVLMを使用してジェイルブレイクテキストを生成し、最先端の拡散モデルを利用して対応するジェイルブレイク画像を生成する。
MiniGPT-4を94%の成功率でジェイルブレイクし、LLaVAとInstructBLIPにシームレスに移行し、それぞれ82%と88%という高い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Effective and Evasive Fuzz Testing-Driven Jailbreaking Attacks against LLMs [33.87649859430635]
大規模言語モデル(LLM)は様々なタスクに優れていますが、それでも脱獄攻撃に対して脆弱です。
我々は,ブラックボックスファジテストのアプローチを,一連のカスタマイズされた設計で適応させる新しいジェイルブレイク攻撃フレームワークを提案する。
攻撃成功率は90%,80%,74%以上であり,既存のベースラインを60%以上越えている。
論文 参考訳(メタデータ) (2024-09-23T10:03:09Z) - Improved Few-Shot Jailbreaking Can Circumvent Aligned Language Models and Their Defenses [37.56003689042975]
多数のデモ(最大数百)は、その長いコンテキスト能力を活用することで、最先端のLDMをジェイルブレイクすることができる。
本稿では,[/INST]のような特別なシステムトークンの注入や,収集したデモプールからのデモレベルのランダム検索などの改良手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T12:59:17Z) - Don't Listen To Me: Understanding and Exploring Jailbreak Prompts of Large Language Models [29.312244478583665]
生成AIは、大きな言語モデル(LLM)へのユビキタスアクセスを可能にした
脱獄プロンプトは、セキュリティ制限を回避し、本来禁止されるように設計された有害なコンテンツを引き出す最も効果的なメカニズムの1つとして現れてきた。
LLMの専門知識に関わらず、ユーザはしばしばジェイルブレイクを成功させる。
また,脱獄即時生成のプロセスを自動化するアシスタントとしてAIを用いたシステムも開発している。
論文 参考訳(メタデータ) (2024-03-26T02:47:42Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。