論文の概要: SteerDiff: Steering towards Safe Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.02710v1
- Date: Thu, 03 Oct 2024 17:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:55:51.675942
- Title: SteerDiff: Steering towards Safe Text-to-Image Diffusion Models
- Title(参考訳): SteerDiff: 安全なテキストと画像の拡散モデルを目指して
- Authors: Hongxiang Zhang, Yifeng He, Hao Chen,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは不適切なコンテンツを生成するために誤用することができる。
本稿では,ユーザ入力と拡散モデルの間の仲介として機能する軽量適応モジュールであるSteerDiffを紹介する。
提案手法の有効性を評価するために,様々な概念の未学習タスクに対して広範な実験を行う。
- 参考スコア(独自算出の注目度): 5.781285400461636
- License:
- Abstract: Text-to-image (T2I) diffusion models have drawn attention for their ability to generate high-quality images with precise text alignment. However, these models can also be misused to produce inappropriate content. Existing safety measures, which typically rely on text classifiers or ControlNet-like approaches, are often insufficient. Traditional text classifiers rely on large-scale labeled datasets and can be easily bypassed by rephrasing. As diffusion models continue to scale, fine-tuning these safeguards becomes increasingly challenging and lacks flexibility. Recent red-teaming attack researches further underscore the need for a new paradigm to prevent the generation of inappropriate content. In this paper, we introduce SteerDiff, a lightweight adaptor module designed to act as an intermediary between user input and the diffusion model, ensuring that generated images adhere to ethical and safety standards with little to no impact on usability. SteerDiff identifies and manipulates inappropriate concepts within the text embedding space to guide the model away from harmful outputs. We conduct extensive experiments across various concept unlearning tasks to evaluate the effectiveness of our approach. Furthermore, we benchmark SteerDiff against multiple red-teaming strategies to assess its robustness. Finally, we explore the potential of SteerDiff for concept forgetting tasks, demonstrating its versatility in text-conditioned image generation.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルでは,高精度なテキストアライメントで高品質な画像を生成する能力に注目が集まっている。
しかし、これらのモデルは不適切なコンテンツを生成するために誤用することもできる。
テキスト分類器やコントロールネットのようなアプローチに依存する既存の安全対策は、しばしば不十分である。
従来のテキスト分類器は大規模ラベル付きデータセットに依存しており、リフレージングによって簡単にバイパスできる。
拡散モデルが拡大を続けるにつれ、これらのセーフガードの微調整はますます難しくなり、柔軟性に欠ける。
近年の赤チーム攻撃研究は、不適切なコンテンツの発生を防ぐための新しいパラダイムの必要性をさらに強調している。
本稿では,ユーザ入力と拡散モデルの間の仲介として機能する軽量適応モジュールであるSteerDiffを紹介する。
SteerDiffは、テキスト埋め込み空間内で不適切な概念を特定し、操作することで、有害な出力からモデルを誘導する。
提案手法の有効性を評価するために,様々な概念の未学習タスクに対して広範な実験を行う。
さらに、SteerDiffを複数の赤チーム戦略に対してベンチマークし、その堅牢性を評価します。
最後に、タスクを忘れる概念としてSteerDiffの可能性を探求し、テキスト条件の画像生成におけるその汎用性を実証する。
関連論文リスト
- EnTruth: Enhancing the Traceability of Unauthorized Dataset Usage in Text-to-image Diffusion Models with Minimal and Robust Alterations [73.94175015918059]
本稿では、未承認のデータセット使用のトレーサビリティを高める新しいアプローチであるEnTruthを紹介する。
テンプレートの暗記を戦略的に取り入れることで、EnTruthは不正なモデルの特定の振る舞いを侵害の証拠として引き起こすことができる。
本手法は, 暗記の正当性を調査し, 著作権保護に利用し, 呪いを祝福する最初の方法である。
論文 参考訳(メタデータ) (2024-06-20T02:02:44Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - FLIRT: Feedback Loop In-context Red Teaming [71.38594755628581]
我々は、与えられたモデルを評価し、その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - Learning to Generate Training Datasets for Robust Semantic Segmentation [37.9308918593436]
セマンティックセグメンテーション手法の堅牢性を改善するための新しい手法を提案する。
我々は,現実的で可視な摂動画像を生成するために,新しい条件付き生成対向ネットワークであるRobustaを設計した。
我々の結果は、このアプローチが安全クリティカルなアプリケーションに有用である可能性を示唆している。
論文 参考訳(メタデータ) (2023-08-01T10:02:26Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - CRoSS: Diffusion Model Makes Controllable, Robust and Secure Image
Steganography [15.705627450233504]
制御可能・ロバスト・セキュア画像ステガノグラフィー(CRoSS)という新しい画像ステガノグラフィーフレームワークを提案する。
CRoSSは、カバーベース画像ステガノグラフィー法と比較して、制御性、堅牢性、セキュリティにおいて大きな利点がある。
論文 参考訳(メタデータ) (2023-05-26T13:52:57Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。