論文の概要: In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2411.16769v1
- Date: Mon, 25 Nov 2024 04:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:33:32.203773
- Title: In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models
- Title(参考訳): In-Context Experience Replayはテキスト・画像拡散モデルの安全再チーム化を実現する
- Authors: Zhi-Yi Chin, Kuan-Chen Mu, Mario Fritz, Pin-Yu Chen, Wei-Chen Chiu,
- Abstract要約: テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
- 参考スコア(独自算出の注目度): 97.82118821263825
- License:
- Abstract: Text-to-image (T2I) models have shown remarkable progress, but their potential to generate harmful content remains a critical concern in the ML community. While various safety mechanisms have been developed, the field lacks systematic tools for evaluating their effectiveness against real-world misuse scenarios. In this work, we propose ICER, a novel red-teaming framework that leverages Large Language Models (LLMs) and a bandit optimization-based algorithm to generate interpretable and semantic meaningful problematic prompts by learning from past successful red-teaming attempts. Our ICER efficiently probes safety mechanisms across different T2I models without requiring internal access or additional training, making it broadly applicable to deployed systems. Through extensive experiments, we demonstrate that ICER significantly outperforms existing prompt attack methods in identifying model vulnerabilities while maintaining high semantic similarity with intended content. By uncovering that successful jailbreaking instances can systematically facilitate the discovery of new vulnerabilities, our work provides crucial insights for developing more robust safety mechanisms in T2I systems.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
様々な安全メカニズムが開発されているが、現場では実世界の誤用シナリオに対して有効性を評価するための体系的なツールが欠如している。
本研究では,Large Language Models (LLMs) を利用した新しい赤チームフレームワークであるICERと,過去の成功を収めた赤チームの試みから学習することで,解釈可能かつ意味論的に意味のある重要なプロンプトを生成するバンディット最適化アルゴリズムを提案する。
ICERは、内部アクセスや追加トレーニングを必要とせずに、異なるT2Iモデルの安全性メカニズムを効率的に探索し、デプロイシステムに広く適用する。
大規模な実験を通じて、ICERは意図した内容とのセマンティックな類似性を保ちながら、モデルの脆弱性を識別する既存のプロンプトアタック手法を著しく上回っていることを示す。
ジェイルブレイクに成功したインスタンスが、新たな脆弱性の発見を体系的に促進できることを明らかにすることで、我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
関連論文リスト
- Enhancing Pre-Trained Language Models for Vulnerability Detection via Semantic-Preserving Data Augmentation [4.374800396968465]
本稿では,脆弱性検出のための事前学習言語モデルの性能向上を目的としたデータ拡張手法を提案する。
一連の代表的なコード事前訓練モデルの微調整に当社のデータセットを組み込むことで、最大10.1%の精度向上と23.6%のF1増加を達成することができる。
論文 参考訳(メタデータ) (2024-09-30T21:44:05Z) - An Adaptive End-to-End IoT Security Framework Using Explainable AI and LLMs [1.9662978733004601]
本稿では,機械学習(ML),説明可能なAI(XAI),大規模言語モデル(LLM)を活用した,リアルタイムIoT攻撃検出および応答のための革新的なフレームワークを提案する。
私たちのエンドツーエンドフレームワークは、モデル開発からデプロイメントへのシームレスな移行を促進するだけでなく、既存の研究でしばしば欠落している現実世界のアプリケーション機能も表しています。
論文 参考訳(メタデータ) (2024-09-20T03:09:23Z) - A Study on Prompt Injection Attack Against LLM-Integrated Mobile Robotic Systems [4.71242457111104]
大規模言語モデル(LLM)はマルチモーダルプロンプトを処理でき、よりコンテキスト対応の応答を生成することができる。
主な懸念事項の1つは、ロボットナビゲーションタスクでLLMを使用する際の潜在的なセキュリティリスクである。
本研究は,LPM統合システムにおける即時注入が移動ロボットの性能に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-08-07T02:48:22Z) - Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。
これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。
T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文 参考訳(メタデータ) (2024-07-17T08:19:11Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - FLIRT: Feedback Loop In-context Red Teaming [79.63896510559357]
ブラックボックスモデルを評価し,その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。