論文の概要: Jailbreaking Text-to-Image Models with LLM-Based Agents
- arxiv url: http://arxiv.org/abs/2408.00523v2
- Date: Mon, 9 Sep 2024 08:09:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 01:25:35.330981
- Title: Jailbreaking Text-to-Image Models with LLM-Based Agents
- Title(参考訳): LLMエージェントによるテキスト・ツー・イメージのジェイルブレイク
- Authors: Yingkai Dong, Zheng Li, Xiangtao Meng, Ning Yu, Shanqing Guo,
- Abstract要約: 我々は、生成AIモデルをターゲットにした高度なマルチエージェントフレームワークを提案し、特に、組込み安全フィルタを用いたテキスト・ツー・イメージ(T2I)モデルに対するジェイルブレイク攻撃に焦点を当てた。
我々の評価では、Atlasはブラックボックス設定でマルチモーダル安全フィルタを備えた最先端のT2Iモデルをジェイルブレイクすることに成功した。
- 参考スコア(独自算出の注目度): 15.582860145268553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements have significantly improved automated task-solving capabilities using autonomous agents powered by large language models (LLMs). However, most LLM-based agents focus on dialogue, programming, or specialized domains, leaving their potential for addressing generative AI safety tasks largely unexplored. In this paper, we propose Atlas, an advanced LLM-based multi-agent framework targeting generative AI models, specifically focusing on jailbreak attacks against text-to-image (T2I) models with built-in safety filters. Atlas consists of two agents, namely the mutation agent and the selection agent, each comprising four key modules: a vision-language model (VLM) or LLM brain, planning, memory, and tool usage. The mutation agent uses its VLM brain to determine whether a prompt triggers the T2I model's safety filter. It then collaborates iteratively with the LLM brain of the selection agent to generate new candidate jailbreak prompts with the highest potential to bypass the filter. In addition to multi-agent communication, we leverage in-context learning (ICL) memory mechanisms and the chain-of-thought (COT) approach to learn from past successes and failures, thereby enhancing Atlas's performance. Our evaluation demonstrates that Atlas successfully jailbreaks several state-of-the-art T2I models equipped with multi-modal safety filters in a black-box setting. Additionally, Atlas outperforms existing methods in both query efficiency and the quality of generated images. This work convincingly demonstrates the successful application of LLM-based agents in studying the safety vulnerabilities of popular text-to-image generation models. We urge the community to consider advanced techniques like ours in response to the rapidly evolving text-to-image generation field.
- Abstract(参考訳): 近年の進歩により,大規模言語モデル(LLM)を用いた自律エージェントによるタスク解決機能が大幅に向上した。
しかし、ほとんどのLLMベースのエージェントは対話、プログラミング、または特殊ドメインに焦点を当てており、生成的AI安全タスクに対処する可能性はほとんど探索されていない。
本稿では,ジェネレーティブAIモデルを対象とした高度なLLMベースのマルチエージェントフレームワークであるAtlasを提案し,特に安全フィルタを内蔵したテキスト・ツー・イメージ(T2I)モデルに対するジェイルブレイク攻撃に焦点を当てた。
Atlasは2つのエージェント、すなわち突然変異剤と選択剤から構成されており、それぞれが4つの主要なモジュール(視覚言語モデル(VLM)またはLLM脳、計画、記憶、ツール使用)から構成されている。
突然変異剤は、そのVLM脳を用いて、プロンプトがT2Iモデルの安全フィルターをトリガーするかどうかを判定する。
その後、選択剤のLDM脳と反復的に協調し、フィルターをバイパスする可能性が最も高い新しい候補ジェイルブレイクプロンプトを生成する。
マルチエージェント通信に加えて、インコンテキスト学習(ICL)メモリ機構とCOT(チェーン・オブ・シント)アプローチを活用し、過去の成功と失敗から学習し、アトラスの性能を向上させる。
我々の評価では、Atlasはブラックボックス設定でマルチモーダル安全フィルタを備えた最先端のT2Iモデルをジェイルブレイクすることに成功した。
さらにAtlasは、クエリ効率と生成された画像の品質の両方において、既存のメソッドよりも優れています。
この研究は、人気のあるテキスト・画像生成モデルの安全性の脆弱性を研究する上で、LLMベースのエージェントが成功したことを実証するものである。
我々は,急速に発展するテキスト・画像生成分野に対応するため,コミュニティに対して,我々のような高度な技術を検討するよう促す。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - Autonomous LLM-Enhanced Adversarial Attack for Text-to-Motion [22.666853714543993]
テキスト・トゥ・モーション(T2M)モデルはテキスト・プロンプトからリアルな動きを生成する。
T2Mへの関心が高まったが、敵の攻撃からこれらのモデルを保護することに焦点を当てる手法はほとんどなかった。
ALERT-Motionは,ブラックボックスT2Mモデルに対する敵攻撃を標的とする自律的フレームワークである。
論文 参考訳(メタデータ) (2024-08-01T07:44:11Z) - Arondight: Red Teaming Large Vision Language Models with Auto-generated Multi-modal Jailbreak Prompts [25.661444231400772]
大規模視覚言語モデル(VLM)は、大規模言語モデル(LLM)の知覚能力を拡張し、拡張する
これらの進歩は、特に有害なコンテンツの生成に関して、重要なセキュリティと倫理上の懸念を引き起こす。
VLMに特化した標準化されたレッドチームフレームワークであるArondightを紹介します。
論文 参考訳(メタデータ) (2024-07-21T04:37:11Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - QROA: A Black-Box Query-Response Optimization Attack on LLMs [2.7624021966289605]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を持っている。
本研究は,問合せのみの相互作用を通じてLCMを利用する最適化戦略であるクエリ応答最適化攻撃(QROA)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T07:27:36Z) - Tiny Refinements Elicit Resilience: Toward Efficient Prefix-Model Against LLM Red-Teaming [37.32997502058661]
本稿では,数個のトークンで入力プロンプトを再構築するプラグイン・アンド・プレイプレフィックスモジュールとしてtextbfsentinel モデルを提案する。
センチネルモデルは、微調整された大きなターゲットモデルに対するテキストパラメータ非効率性とテキスト制限モデルアクセシビリティを自然に克服する。
テキスト・ツー・テキスト・ツー・イメージを用いた実験により,有害な出力を緩和する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-05-21T08:57:44Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。