論文の概要: DREAM: Scalable Red Teaming for Text-to-Image Generative Systems via Distribution Modeling
- arxiv url: http://arxiv.org/abs/2507.16329v1
- Date: Tue, 22 Jul 2025 08:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.021164
- Title: DREAM: Scalable Red Teaming for Text-to-Image Generative Systems via Distribution Modeling
- Title(参考訳): DREAM:分散モデリングによるテキスト・画像生成システムのためのスケーラブルなレッド・チーム
- Authors: Boheng Li, Junjie Wang, Yiming Li, Zhiyang Hu, Leyi Qi, Jianshuo Dong, Run Wang, Han Qiu, Zhan Qin, Tianwei Zhang,
- Abstract要約: テキスト・トゥ・イメージ(T2I)生成モデルは、性や暴力的なイメージなどの有害なコンテンツを生成できる。
Red Teamingは、T2Iシステムから安全でない出力を抽出できる多様なプロンプトを積極的に識別することを目的としている。
我々は,与えられたT2Iシステムから様々な問題のあるプロンプトを自動的に発見する,スケーラブルなレッド・チーム・フレームワークであるDREAMを提案する。
- 参考スコア(独自算出の注目度): 23.856811182352992
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the integration of safety alignment and external filters, text-to-image (T2I) generative models are still susceptible to producing harmful content, such as sexual or violent imagery. This raises serious concerns about unintended exposure and potential misuse. Red teaming, which aims to proactively identify diverse prompts that can elicit unsafe outputs from the T2I system (including the core generative model as well as potential external safety filters and other processing components), is increasingly recognized as an essential method for assessing and improving safety before real-world deployment. Yet, existing automated red teaming approaches often treat prompt discovery as an isolated, prompt-level optimization task, which limits their scalability, diversity, and overall effectiveness. To bridge this gap, in this paper, we propose DREAM, a scalable red teaming framework to automatically uncover diverse problematic prompts from a given T2I system. Unlike most prior works that optimize prompts individually, DREAM directly models the probabilistic distribution of the target system's problematic prompts, which enables explicit optimization over both effectiveness and diversity, and allows efficient large-scale sampling after training. To achieve this without direct access to representative training samples, we draw inspiration from energy-based models and reformulate the objective into simple and tractable objectives. We further introduce GC-SPSA, an efficient optimization algorithm that provide stable gradient estimates through the long and potentially non-differentiable T2I pipeline. The effectiveness of DREAM is validated through extensive experiments, demonstrating that it surpasses 9 state-of-the-art baselines by a notable margin across a broad range of T2I models and safety filters in terms of prompt success rate and diversity.
- Abstract(参考訳): 安全アライメントと外部フィルターの統合にもかかわらず、テキスト・トゥ・イメージ(T2I)生成モデルは、性的または暴力的なイメージのような有害なコンテンツを生成できる。
これは意図しない露出と潜在的な誤用に対する深刻な懸念を引き起こす。
レッドチーム(Red Teaming)は、T2Iシステム(コア生成モデルや潜在的な外部安全フィルタ、その他の処理コンポーネントを含む)から安全でない出力を引き出す多様なプロンプトを積極的に特定することを目的としている。
しかし、既存の自動化されたレッド・チーム・アプローチは、しばしばプロンプト発見を、そのスケーラビリティ、多様性、全体的な効果を制限する、孤立した迅速なレベルの最適化タスクとして扱う。
このギャップを埋めるために、本稿では、与えられたT2Iシステムから様々な問題のあるプロンプトを自動的に発見するスケーラブルなレッド・チーム・フレームワークであるDREAMを提案する。
個別にプロンプトを最適化する従来のほとんどの作業とは異なり、DREAMはターゲットシステムの問題のあるプロンプトの確率分布を直接モデル化し、有効性と多様性の両方を明示的に最適化し、トレーニング後の大規模なサンプリングを効率的に行うことができる。
代表的なトレーニングサンプルに直接アクセスすることなく、エネルギーモデルからインスピレーションを得て、目的をシンプルでトラクタブルな目標に再構成する。
さらに,GC-SPSAを導入し,長大かつ潜在的に微分不可能なT2Iパイプラインを通じて安定した勾配推定を行う。
DREAMの有効性は広範な実験を通じて検証され、成功率と多様性の点で、T2Iモデルと安全フィルタの広範囲にわたる顕著なマージンで、最先端の9つのベースラインを超えることを示した。
関連論文リスト
- GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - Quality-Diversity Red-Teaming: Automated Generation of High-Quality and Diverse Attackers for Large Language Models [34.601888589730194]
本稿では,これらの制約に対処する新しいフレームワークであるQDRTを紹介する。
QDRTは、行動条件付きトレーニングを通じて目標駆動の多様性を実現し、オープンな方法で行動リプレイバッファを実装する。
我々の経験的評価は、QDRTがより多種多様で、広範囲のLLMに対してより効果的に攻撃を発生させることを示す。
論文 参考訳(メタデータ) (2025-06-08T13:07:41Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。
これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。
T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文 参考訳(メタデータ) (2024-07-17T08:19:11Z) - DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints [68.82294911302579]
DiveR-CTを導入し、目的と意味の報酬に対する従来の制約を緩和し、多様性を高める政策により大きな自由を与える。
実験では,1)様々な攻撃成功率の多様な多様性指標において優れたデータを生成すること,2)収集したデータに基づく安全性チューニングによる青チームモデルのレジリエンスの向上,3)信頼性と制御可能な攻撃成功率に対する目標重みの動的制御,3)報酬過大化に対する感受性の低下など,ベースラインよりも優れたDiveR-CTの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2024-05-29T12:12:09Z) - Tiny Refinements Elicit Resilience: Toward Efficient Prefix-Model Against LLM Red-Teaming [37.32997502058661]
本稿では,数個のトークンで入力プロンプトを再構築するプラグイン・アンド・プレイプレフィックスモジュールとしてtextbfsentinel モデルを提案する。
センチネルモデルは、微調整された大きなターゲットモデルに対するテキストパラメータ非効率性とテキスト制限モデルアクセシビリティを自然に克服する。
テキスト・ツー・テキスト・ツー・イメージを用いた実験により,有害な出力を緩和する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-05-21T08:57:44Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。