論文の概要: Jailbreaking Text-to-Image Models with LLM-Based Agents
- arxiv url: http://arxiv.org/abs/2408.00523v1
- Date: Thu, 1 Aug 2024 12:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 20:36:37.950583
- Title: Jailbreaking Text-to-Image Models with LLM-Based Agents
- Title(参考訳): LLMエージェントによるテキスト・ツー・イメージのジェイルブレイク
- Authors: Yingkai Dong, Zheng Li, Xiangtao Meng, Ning Yu, Shanqing Guo,
- Abstract要約: 我々は、生成AIモデルをターゲットにした効率的なファジングワークフローを統合する、高度なマルチエージェントフレームワークであるAtlasを提案する。
我々の評価は、Atlasがいくつかの最先端のT2Iモデルをブラックボックス設定でジェイルブレイクすることに成功していることを示している。
さらにAtlasは、クエリ効率と生成された画像の品質の両方において、既存の方法よりも優れています。
- 参考スコア(独自算出の注目度): 15.582860145268553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements have significantly improved automated task-solving capabilities using autonomous agents powered by large language models (LLMs). However, most LLM-based agents focus on dialogue, programming, or specialized domains, leaving gaps in addressing generative AI safety tasks. These gaps are primarily due to the challenges posed by LLM hallucinations and the lack of clear guidelines. In this paper, we propose Atlas, an advanced LLM-based multi-agent framework that integrates an efficient fuzzing workflow to target generative AI models, specifically focusing on jailbreak attacks against text-to-image (T2I) models with safety filters. Atlas utilizes a vision-language model (VLM) to assess whether a prompt triggers the T2I model's safety filter. It then iteratively collaborates with both LLM and VLM to generate an alternative prompt that bypasses the filter. Atlas also enhances the reasoning abilities of LLMs in attack scenarios by leveraging multi-agent communication, in-context learning (ICL) memory mechanisms, and the chain-of-thought (COT) approach. Our evaluation demonstrates that Atlas successfully jailbreaks several state-of-the-art T2I models in a black-box setting, which are equipped with multi-modal safety filters. In addition, Atlas outperforms existing methods in both query efficiency and the quality of the generated images.
- Abstract(参考訳): 近年の進歩により,大規模言語モデル(LLM)を用いた自律エージェントによるタスク解決機能が大幅に向上した。
しかし、ほとんどのLLMベースのエージェントは、対話、プログラミング、または特殊なドメインに焦点を当てており、生成的AI安全タスクに対処する際のギャップを残している。
これらのギャップは主に、LLM幻覚による課題と明確なガイドラインの欠如によるものである。
本稿では,ジェネレーティブAIモデルを対象とした効率的なファジングワークフローを統合した,高度なLLMベースのマルチエージェントフレームワークであるAtlasを提案し,特に安全フィルタ付きテキスト・ツー・イメージ(T2I)モデルに対するジェイルブレイク攻撃に焦点を当てた。
Atlasは視覚言語モデル(VLM)を使用して、プロンプトがT2Iモデルの安全フィルタをトリガーするかどうかを評価する。
その後、LLMとVLMの両方と反復的に協調し、フィルタをバイパスする別のプロンプトを生成する。
Atlasはまた、マルチエージェント通信、インコンテキスト学習(ICL)メモリ機構、およびチェーン・オブ・シント(COT)アプローチを活用することで、攻撃シナリオにおけるLLMの推論能力を向上させる。
我々の評価は、マルチモーダル安全フィルタを備えたブラックボックス設定で、Atlasがいくつかの最先端のT2Iモデルをジェイルブレイクすることに成功していることを示している。
さらにAtlasは、クエリ効率と生成された画像の品質の両方において、既存の方法よりも優れています。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - Autonomous LLM-Enhanced Adversarial Attack for Text-to-Motion [22.666853714543993]
テキスト・トゥ・モーション(T2M)モデルはテキスト・プロンプトからリアルな動きを生成する。
T2Mへの関心が高まったが、敵の攻撃からこれらのモデルを保護することに焦点を当てる手法はほとんどなかった。
ALERT-Motionは,ブラックボックスT2Mモデルに対する敵攻撃を標的とする自律的フレームワークである。
論文 参考訳(メタデータ) (2024-08-01T07:44:11Z) - Arondight: Red Teaming Large Vision Language Models with Auto-generated Multi-modal Jailbreak Prompts [25.661444231400772]
大規模視覚言語モデル(VLM)は、大規模言語モデル(LLM)の知覚能力を拡張し、拡張する
これらの進歩は、特に有害なコンテンツの生成に関して、重要なセキュリティと倫理上の懸念を引き起こす。
VLMに特化した標準化されたレッドチームフレームワークであるArondightを紹介します。
論文 参考訳(メタデータ) (2024-07-21T04:37:11Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - QROA: A Black-Box Query-Response Optimization Attack on LLMs [2.7624021966289605]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を持っている。
本研究は,問合せのみの相互作用を通じてLCMを利用する最適化戦略であるクエリ応答最適化攻撃(QROA)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T07:27:36Z) - Tiny Refinements Elicit Resilience: Toward Efficient Prefix-Model Against LLM Red-Teaming [37.32997502058661]
本稿では,数個のトークンで入力プロンプトを再構築するプラグイン・アンド・プレイプレフィックスモジュールとしてtextbfsentinel モデルを提案する。
センチネルモデルは、微調整された大きなターゲットモデルに対するテキストパラメータ非効率性とテキスト制限モデルアクセシビリティを自然に克服する。
テキスト・ツー・テキスト・ツー・イメージを用いた実験により,有害な出力を緩和する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-05-21T08:57:44Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。