論文の概要: Automatic Jailbreaking of the Text-to-Image Generative AI Systems
- arxiv url: http://arxiv.org/abs/2405.16567v2
- Date: Tue, 28 May 2024 06:37:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 10:59:04.136573
- Title: Automatic Jailbreaking of the Text-to-Image Generative AI Systems
- Title(参考訳): テキスト・画像生成型AIシステムの自動脱獄
- Authors: Minseon Kim, Hyomin Lee, Boqing Gong, Huishuai Zhang, Sung Ju Hwang,
- Abstract要約: 本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。
安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。
当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
- 参考スコア(独自算出の注目度): 76.9697122883554
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent AI systems have shown extremely powerful performance, even surpassing human performance, on various tasks such as information retrieval, language generation, and image generation based on large language models (LLMs). At the same time, there are diverse safety risks that can cause the generation of malicious contents by circumventing the alignment in LLMs, which are often referred to as jailbreaking. However, most of the previous works only focused on the text-based jailbreaking in LLMs, and the jailbreaking of the text-to-image (T2I) generation system has been relatively overlooked. In this paper, we first evaluate the safety of the commercial T2I generation systems, such as ChatGPT, Copilot, and Gemini, on copyright infringement with naive prompts. From this empirical study, we find that Copilot and Gemini block only 12% and 17% of the attacks with naive prompts, respectively, while ChatGPT blocks 84% of them. Then, we further propose a stronger automated jailbreaking pipeline for T2I generation systems, which produces prompts that bypass their safety guards. Our automated jailbreaking framework leverages an LLM optimizer to generate prompts to maximize degree of violation from the generated images without any weight updates or gradient computation. Surprisingly, our simple yet effective approach successfully jailbreaks the ChatGPT with 11.0% block rate, making it generate copyrighted contents in 76% of the time. Finally, we explore various defense strategies, such as post-generation filtering and machine unlearning techniques, but found that they were inadequate, which suggests the necessity of stronger defense mechanisms.
- Abstract(参考訳): 最近のAIシステムは、情報検索、言語生成、大規模言語モデル(LLM)に基づく画像生成といった様々なタスクにおいて、人的パフォーマンスを超越した、非常に強力なパフォーマンスを示している。
同時に、LLMのアライメントを回避して悪意のあるコンテンツの発生を引き起こす様々な安全性リスクがあり、これはしばしばジェイルブレイクと呼ばれる。
しかし、以前の作品のほとんどはLLMにおけるテキストベースのジェイルブレイクのみに焦点を当てており、テキスト・ツー・イメージ(T2I)生成システムのジェイルブレイクは比較的見過ごされている。
本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの著作権侵害における安全性を,ナイーブなプロンプトで評価する。
この実証実験から、コピロとジェミニがそれぞれ12%と17%の攻撃でブロックしているのに対し、ChatGPTは84%しかブロックしていないことがわかった。
さらに、安全ガードをバイパスするプロンプトを生成するT2I生成システムのための、より強力な自動脱獄パイプラインを提案する。
我々の自動ジェイルブレイクフレームワークは、LLMオプティマイザを利用して、重み付けや勾配計算なしに生成された画像からの違反の程度を最大化するプロンプトを生成する。
驚いたことに、我々の単純で効果的なアプローチは、ChatGPTを11.0%のブロックレートでジェイルブレイクし、著作権のあるコンテンツをその76%で生成する。
最後に, ポストジェネレーションフィルタリングやマシンアンラーニング技術など, 様々な防衛戦略を探求するが, それらが不十分であることから, より強力な防御機構の必要性が示唆された。
関連論文リスト
- Improved Few-Shot Jailbreaking Can Circumvent Aligned Language Models and Their Defenses [37.56003689042975]
多数のデモ(最大数百)は、その長いコンテキスト能力を活用することで、最先端のLDMをジェイルブレイクすることができる。
本稿では,[/INST]のような特別なシステムトークンの注入や,収集したデモプールからのデモレベルのランダム検索などの改良手法を提案する。
論文 参考訳(メタデータ) (2024-06-03T12:59:17Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - Don't Listen To Me: Understanding and Exploring Jailbreak Prompts of Large Language Models [29.312244478583665]
生成AIは、大きな言語モデル(LLM)へのユビキタスアクセスを可能にした
脱獄プロンプトは、セキュリティ制限を回避し、本来禁止されるように設計された有害なコンテンツを引き出す最も効果的なメカニズムの1つとして現れてきた。
LLMの専門知識に関わらず、ユーザはしばしばジェイルブレイクを成功させる。
また,脱獄即時生成のプロセスを自動化するアシスタントとしてAIを用いたシステムも開発している。
論文 参考訳(メタデータ) (2024-03-26T02:47:42Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。