Fugu-MT 論文翻訳(概要): Automatic Jailbreaking of the Text-to-Image Generative AI Systems

論文の概要: Automatic Jailbreaking of the Text-to-Image Generative AI Systems

arxiv url: http://arxiv.org/abs/2405.16567v1
Date: Sun, 26 May 2024 13:32:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 20:29:27.965375
Title: Automatic Jailbreaking of the Text-to-Image Generative AI Systems
Title（参考訳）: テキスト・画像生成型AIシステムの自動脱獄
Authors: Minseon Kim, Hyomin Lee, Boqing Gong, Huishuai Zhang, Sung Ju Hwang,
Abstract要約: 本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
参考スコア（独自算出の注目度）: 76.9697122883554
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent AI systems have shown extremely powerful performance, even surpassing human performance, on various tasks such as information retrieval, language generation, and image generation based on large language models (LLMs). At the same time, there are diverse safety risks that can cause the generation of malicious contents by circumventing the alignment in LLMs, which are often referred to as jailbreaking. However, most of the previous works only focused on the text-based jailbreaking in LLMs, and the jailbreaking of the text-to-image (T2I) generation system has been relatively overlooked. In this paper, we first evaluate the safety of the commercial T2I generation systems, such as ChatGPT, Copilot, and Gemini, on copyright infringement with naive prompts. From this empirical study, we find that Copilot and Gemini block only 12\% and 17\% of the attacks with naive prompts, respectively, while ChatGPT blocks 84\% of them. Then, we further propose a stronger automated jailbreaking pipeline for T2I generation systems, which produces prompts that bypass their safety guards. Our automated jailbreaking framework leverages an LLM optimizer to generate prompts to maximize degree of violation from the generated images without any weight updates or gradient computation. Surprisingly, our simple yet effective approach successfully jailbreaks the ChatGPT with 11.0\% block rate, making it generate copyrighted contents in 76\% of the time. Finally, we explore various defense strategies, such as post-generation filtering and machine unlearning techniques, but found that they were inadequate, which suggests the necessity of stronger defense mechanisms.
Abstract（参考訳）: 最近のAIシステムは、情報検索、言語生成、大規模言語モデル(LLM)に基づく画像生成といった様々なタスクにおいて、人的パフォーマンスを超越した、非常に強力なパフォーマンスを示している。同時に、LLMのアライメントを回避して悪意のあるコンテンツの発生を引き起こす様々な安全性リスクがあり、これはしばしばジェイルブレイクと呼ばれる。しかし、以前の作品のほとんどはLLMにおけるテキストベースのジェイルブレイクのみに焦点を当てており、テキスト・ツー・イメージ(T2I)生成システムのジェイルブレイクは比較的見過ごされている。本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの著作権侵害における安全性を,ナイーブなプロンプトで評価する。この実証実験から、コピロとジェミニがそれぞれ12%と17%の攻撃しかブロックしていないのに対し、ChatGPTは84%の攻撃をブロックしていることがわかった。さらに、安全ガードをバイパスするプロンプトを生成するT2I生成システムのための、より強力な自動脱獄パイプラインを提案する。我々の自動ジェイルブレイクフレームワークは、LLMオプティマイザを利用して、重み付けや勾配計算なしに生成された画像からの違反の程度を最大化するプロンプトを生成する。驚いたことに、私たちの単純な効果的なアプローチは、ChatGPTを11.0\%のブロックレートでジェイルブレイクし、76\%の時間で著作権のあるコンテンツを生成します。最後に, ポストジェネレーションフィルタリングやマシンアンラーニング技術など, 様々な防衛戦略を探求するが, それらが不十分であることから, より強力な防御機構の必要性が示唆された。

関連論文リスト

Anyone Can Jailbreak: Prompt-Based Attacks on LLMs and T2Is [8.214994509812724]
大規模言語モデル(LLM)とテキスト・トゥ・イメージ(T2I)システムは、ジェイルブレイクとして知られるプロンプトベースの攻撃に対して脆弱である。本稿では,非専門家が安全メカニズムを確実に回避する方法について,システムスタイルの考察を行う。本稿では,テキスト出力モデルとT2Iモデルの両方にまたがる,即時レベルのジェイルブレイク戦略の統一分類法を提案する。
論文参考訳（メタデータ） (2025-07-29T13:55:23Z)
Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。 LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文参考訳（メタデータ） (2025-02-16T11:43:39Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
IDEATOR: Jailbreaking Large Vision-Language Models Using Themselves [67.30731020715496]
ブラックボックスのジェイルブレイク攻撃に対して,悪意のある画像テキストペアを自動生成する新しいジェイルブレイク手法 IDEATOR を提案する。 IDEATORはVLMを使用して、ターゲットとなるJailbreakテキストを作成し、最先端の拡散モデルによって生成されたJailbreakイメージと組み合わせる。平均5.34クエリでMiniGPT-4をジェイルブレイクし、LLaVA、InstructBLIP、Meta's Chameleonに転送すると82%、88%、75%という高い成功率を達成した。
論文参考訳（メタデータ） (2024-10-29T07:15:56Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
Effective and Evasive Fuzz Testing-Driven Jailbreaking Attacks against LLMs [33.87649859430635]
大規模言語モデル(LLM)は様々なタスクに優れていますが、それでも脱獄攻撃に対して脆弱です。我々は,ブラックボックスファジテストのアプローチを,一連のカスタマイズされた設計で適応させる新しいジェイルブレイク攻撃フレームワークを提案する。攻撃成功率は90%,80%,74%以上であり,既存のベースラインを60%以上越えている。
論文参考訳（メタデータ） (2024-09-23T10:03:09Z)
Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation Models [15.582860145268553]
JailFuzzerは、大きな言語モデル(LLM)エージェントによって駆動される新しいファジングフレームワークである。自然かつ意味的に一貫性のあるプロンプトを生成し、従来の防御による検出の可能性を減らす。クエリオーバーヘッドを最小限に抑えたジェイルブレイク攻撃で高い成功率を達成する。
論文参考訳（メタデータ） (2024-08-01T12:54:46Z)
Improved Few-Shot Jailbreaking Can Circumvent Aligned Language Models and Their Defenses [37.56003689042975]
多数のデモ(最大数百)は、その長いコンテキスト能力を活用することで、最先端のLDMをジェイルブレイクすることができる。本稿では,[/INST]のような特別なシステムトークンの注入や,収集したデモプールからのデモレベルのランダム検索などの改良手法を提案する。
論文参考訳（メタデータ） (2024-06-03T12:59:17Z)
Don't Listen To Me: Understanding and Exploring Jailbreak Prompts of Large Language Models [29.312244478583665]
生成AIは、大きな言語モデル(LLM)へのユビキタスアクセスを可能にした脱獄プロンプトは、セキュリティ制限を回避し、本来禁止されるように設計された有害なコンテンツを引き出す最も効果的なメカニズムの1つとして現れてきた。 LLMの専門知識に関わらず、ユーザはしばしばジェイルブレイクを成功させる。また,脱獄即時生成のプロセスを自動化するアシスタントとしてAIを用いたシステムも開発している。
論文参考訳（メタデータ） (2024-03-26T02:47:42Z)
Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。 GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文参考訳（メタデータ） (2023-11-15T17:17:39Z)
Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。 LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-12T15:38:28Z)
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。 AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文参考訳（メタデータ） (2023-10-03T19:44:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。