論文の概要: Prompt-Based Safety Guidance Is Ineffective for Unlearned Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.04834v1
- Date: Thu, 06 Nov 2025 21:51:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.600256
- Title: Prompt-Based Safety Guidance Is Ineffective for Unlearned Text-to-Image Diffusion Models
- Title(参考訳): プロンプトに基づく安全誘導は未学習のテキスト・画像拡散モデルには有効ではない
- Authors: Jiwoo Shin, Byeonghu Na, Mina Kang, Wonhyeok Choi, Il-chul Moon,
- Abstract要約: テキストから画像への生成モデルは、悪意のある入力テキストプロンプトを提供すると有害なコンテンツを生成することができる。
この問題に対処するため、2つの主要なアプローチとして、有害な概念を解き放つためのモデルを微調整することと、ネガティブなプロンプトを活用するトレーニング不要なガイダンス手法がある。
本研究では, 学習不要な手法で用いられる負のプロンプトを, 概念反転によって得られる暗黙の負の埋め込みに置き換える, 概念的に単純だが実験的に堅牢な手法を提案する。
- 参考スコア(独自算出の注目度): 25.506755988062206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-image generative models have raised concerns about their potential to produce harmful content when provided with malicious input text prompts. To address this issue, two main approaches have emerged: (1) fine-tuning the model to unlearn harmful concepts and (2) training-free guidance methods that leverage negative prompts. However, we observe that combining these two orthogonal approaches often leads to marginal or even degraded defense performance. This observation indicates a critical incompatibility between two paradigms, which hinders their combined effectiveness. In this work, we address this issue by proposing a conceptually simple yet experimentally robust method: replacing the negative prompts used in training-free methods with implicit negative embeddings obtained through concept inversion. Our method requires no modification to either approach and can be easily integrated into existing pipelines. We experimentally validate its effectiveness on nudity and violence benchmarks, demonstrating consistent improvements in defense success rate while preserving the core semantics of input prompts.
- Abstract(参考訳): テキスト・ツー・イメージ生成モデルの最近の進歩は、悪意のある入力テキスト・プロンプトが提供されると有害なコンテンツを生み出す可能性を懸念している。
この問題に対処するために、(1)有害な概念を未学習にするためにモデルを微調整すること、(2)ネガティブなプロンプトを活用するトレーニング不要な指導方法の2つの主要なアプローチが登場した。
しかし,これら2つの直交アプローチを組み合わせることで,防御性能が限界あるいは低下することが少なくない。
この観察は、2つのパラダイム間の重要な非互換性を示し、それらの組み合わせの有効性を妨げている。
本研究では, 学習自由な手法で用いられる負のプロンプトを, 概念反転によって得られる暗黙の負の埋め込みに置き換える, 概念的に単純だが実験的に堅牢な手法を提案することにより, この問題に対処する。
我々の手法はどちらのアプローチも変更する必要がなく、既存のパイプラインに容易に組み込める。
我々は、その効果をヌードと暴力のベンチマークで実験的に検証し、入力プロンプトのコアセマンティクスを保ちながら、防御成功率を一貫した改善を実証した。
関連論文リスト
- Modeling the Attack: Detecting AI-Generated Text by Quantifying Adversarial Perturbations [2.7620215077666557]
現代の検出器は敵の攻撃に弱いことで知られており、パラフレーズは効果的な回避技術として際立っている。
本稿では,まず,標準的な対人訓練の限界を定量化することにより,対人的堅牢性の比較研究を行う。
次に、新しい、はるかに回復力のある検出フレームワークを紹介します。
論文 参考訳(メタデータ) (2025-09-22T13:03:53Z) - Paying Alignment Tax with Contrastive Learning [6.232983467016873]
現在のデバイアスのアプローチは、事実の正確性や知識の保持といったモデル能力の低下をもたらすことが多い。
本稿では, 慎重に構築された肯定的, 否定的な例を通して学習する, 対照的な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-25T21:26:18Z) - AdvAnchor: Enhancing Diffusion Model Unlearning with Adversarial Anchors [61.007590285263376]
セキュリティ上の懸念から、研究者たちは微調整によって不適切な概念を学ばざるを得なくなった。
最近の微調整手法は、望ましくない概念を排除し、他の概念を保存することの間のかなりの性能のトレードオフを示す。
本稿では,貿易問題を軽減するために,敵対的アンカーを生成する新しいアプローチであるAdvAnchorを提案する。
論文 参考訳(メタデータ) (2024-12-28T04:44:07Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Improving White-box Robustness of Pre-processing Defenses via Joint Adversarial Training [106.34722726264522]
対向騒音の干渉を軽減するため,様々な対向防御技術が提案されている。
プレプロセス法は、ロバストネス劣化効果に悩まされることがある。
この負の効果の潜在的な原因は、敵の訓練例が静的であり、前処理モデルとは独立していることである。
本稿では,JATP(Joint Adversarial Training Based Pre-processing)防衛法を提案する。
論文 参考訳(メタデータ) (2021-06-10T01:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。