Fugu-MT 論文翻訳(概要): SteerDiff: Steering towards Safe Text-to-Image Diffusion Models

論文の概要: SteerDiff: Steering towards Safe Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2410.02710v1
Date: Thu, 3 Oct 2024 17:34:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 01:23:03.384054
Title: SteerDiff: Steering towards Safe Text-to-Image Diffusion Models
Title（参考訳）: SteerDiff: 安全なテキストと画像の拡散モデルを目指して
Authors: Hongxiang Zhang, Yifeng He, Hao Chen,
Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは不適切なコンテンツを生成するために誤用することができる。本稿では,ユーザ入力と拡散モデルの間の仲介として機能する軽量適応モジュールであるSteerDiffを紹介する。提案手法の有効性を評価するために,様々な概念の未学習タスクに対して広範な実験を行う。
参考スコア（独自算出の注目度）: 5.781285400461636
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image (T2I) diffusion models have drawn attention for their ability to generate high-quality images with precise text alignment. However, these models can also be misused to produce inappropriate content. Existing safety measures, which typically rely on text classifiers or ControlNet-like approaches, are often insufficient. Traditional text classifiers rely on large-scale labeled datasets and can be easily bypassed by rephrasing. As diffusion models continue to scale, fine-tuning these safeguards becomes increasingly challenging and lacks flexibility. Recent red-teaming attack researches further underscore the need for a new paradigm to prevent the generation of inappropriate content. In this paper, we introduce SteerDiff, a lightweight adaptor module designed to act as an intermediary between user input and the diffusion model, ensuring that generated images adhere to ethical and safety standards with little to no impact on usability. SteerDiff identifies and manipulates inappropriate concepts within the text embedding space to guide the model away from harmful outputs. We conduct extensive experiments across various concept unlearning tasks to evaluate the effectiveness of our approach. Furthermore, we benchmark SteerDiff against multiple red-teaming strategies to assess its robustness. Finally, we explore the potential of SteerDiff for concept forgetting tasks, demonstrating its versatility in text-conditioned image generation.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)拡散モデルでは,高精度なテキストアライメントで高品質な画像を生成する能力に注目が集まっている。しかし、これらのモデルは不適切なコンテンツを生成するために誤用することもできる。テキスト分類器やコントロールネットのようなアプローチに依存する既存の安全対策は、しばしば不十分である。従来のテキスト分類器は大規模ラベル付きデータセットに依存しており、リフレージングによって簡単にバイパスできる。拡散モデルが拡大を続けるにつれ、これらのセーフガードの微調整はますます難しくなり、柔軟性に欠ける。近年の赤チーム攻撃研究は、不適切なコンテンツの発生を防ぐための新しいパラダイムの必要性をさらに強調している。本稿では,ユーザ入力と拡散モデルの間の仲介として機能する軽量適応モジュールであるSteerDiffを紹介する。 SteerDiffは、テキスト埋め込み空間内で不適切な概念を特定し、操作することで、有害な出力からモデルを誘導する。提案手法の有効性を評価するために,様々な概念の未学習タスクに対して広範な実験を行う。さらに、SteerDiffを複数の赤チーム戦略に対してベンチマークし、その堅牢性を評価します。最後に、タスクを忘れる概念としてSteerDiffの可能性を探求し、テキスト条件の画像生成におけるその汎用性を実証する。

関連論文リスト

SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。 SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文参考訳（メタデータ） (2026-01-13T15:01:38Z)
Training-Free Safe Text Embedding Guidance for Text-to-Image Diffusion Models [30.63803894651171]
本研究では,拡散モデルの安全性を向上させるためのトレーニング不要アプローチであるセーフテキスト埋め込みガイダンス(STG)を提案する。 STGは、期待された最終識別画像に基づいて評価された安全性関数に基づいてテキスト埋め込みを調整する。ヌード、暴力、アーティストスタイルの除去など、さまざまな安全シナリオの実験は、STGがトレーニングベースとトレーニングフリーベースラインの両方を一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-10-28T02:37:20Z)
SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。 SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。 SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文参考訳（メタデータ） (2025-10-05T10:24:48Z)
Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning [28.15997901023315]
Recallは、未学習のIMGの堅牢性を損なうために設計された、新しい敵のフレームワークである。逆効果、計算効率、意味的忠実性の点で、元のプロンプトで既存のベースラインを一貫して上回ります。これらの結果は、現在の未学習メカニズムにおける重大な脆弱性を明らかにし、より堅牢なソリューションの必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-07-09T02:59:01Z)
DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文参考訳（メタデータ） (2025-02-05T16:35:42Z)
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文参考訳（メタデータ） (2024-11-21T09:47:13Z)
On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは彼らの公正さ、信頼性、そして誤用の可能性について批判的な議論を呼んだ組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文参考訳（メタデータ） (2024-11-21T09:46:55Z)
Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文参考訳（メタデータ） (2024-10-08T17:59:03Z)
Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文参考訳（メタデータ） (2024-07-26T10:49:14Z)
EnTruth: Enhancing the Traceability of Unauthorized Dataset Usage in Text-to-image Diffusion Models with Minimal and Robust Alterations [73.94175015918059]
本稿では、未承認のデータセット使用のトレーサビリティを高める新しいアプローチであるEnTruthを紹介する。テンプレートの暗記を戦略的に取り入れることで、EnTruthは不正なモデルの特定の振る舞いを侵害の証拠として引き起こすことができる。本手法は, 暗記の正当性を調査し, 著作権保護に利用し, 呪いを祝福する最初の方法である。
論文参考訳（メタデータ） (2024-06-20T02:02:44Z)
Learning to Generate Training Datasets for Robust Semantic Segmentation [37.9308918593436]
セマンティックセグメンテーション手法の堅牢性を改善するための新しい手法を提案する。我々は,現実的で可視な摂動画像を生成するために,新しい条件付き生成対向ネットワークであるRobustaを設計した。我々の結果は、このアプローチが安全クリティカルなアプリケーションに有用である可能性を示唆している。
論文参考訳（メタデータ） (2023-08-01T10:02:26Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
CRoSS: Diffusion Model Makes Controllable, Robust and Secure Image Steganography [15.705627450233504]
制御可能・ロバスト・セキュア画像ステガノグラフィー(CRoSS)という新しい画像ステガノグラフィーフレームワークを提案する。 CRoSSは、カバーベース画像ステガノグラフィー法と比較して、制御性、堅牢性、セキュリティにおいて大きな利点がある。
論文参考訳（メタデータ） (2023-05-26T13:52:57Z)
Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文参考訳（メタデータ） (2023-01-31T18:10:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。