論文の概要: Prompt-Based Safety Guidance Is Ineffective for Unlearned Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2511.04834v2
- Date: Thu, 13 Nov 2025 01:09:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 14:36:36.853361
- Title: Prompt-Based Safety Guidance Is Ineffective for Unlearned Text-to-Image Diffusion Models
- Title(参考訳): プロンプトに基づく安全誘導は未学習のテキスト・画像拡散モデルには有効ではない
- Authors: Jiwoo Shin, Byeonghu Na, Mina Kang, Wonhyeok Choi, Il-Chul Moon,
- Abstract要約: テキストから画像への生成モデルは、悪意のある入力テキストプロンプトを提供すると有害なコンテンツを生成することができる。
この問題に対処するため、2つの主要なアプローチとして、有害な概念を解き放つためのモデルを微調整することと、ネガティブなプロンプトを活用するトレーニング不要なガイダンス手法がある。
本研究では, 学習不要な手法で用いられる負のプロンプトを, 概念反転によって得られる暗黙の負の埋め込みに置き換える, 概念的に単純だが実験的に堅牢な手法を提案する。
- 参考スコア(独自算出の注目度): 25.506755988062206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-image generative models have raised concerns about their potential to produce harmful content when provided with malicious input text prompts. To address this issue, two main approaches have emerged: (1) fine-tuning the model to unlearn harmful concepts and (2) training-free guidance methods that leverage negative prompts. However, we observe that combining these two orthogonal approaches often leads to marginal or even degraded defense performance. This observation indicates a critical incompatibility between two paradigms, which hinders their combined effectiveness. In this work, we address this issue by proposing a conceptually simple yet experimentally robust method: replacing the negative prompts used in training-free methods with implicit negative embeddings obtained through concept inversion. Our method requires no modification to either approach and can be easily integrated into existing pipelines. We experimentally validate its effectiveness on nudity and violence benchmarks, demonstrating consistent improvements in defense success rate while preserving the core semantics of input prompts.
- Abstract(参考訳): テキスト・ツー・イメージ生成モデルの最近の進歩は、悪意のある入力テキスト・プロンプトが提供されると有害なコンテンツを生み出す可能性を懸念している。
この問題に対処するために、(1)有害な概念を未学習にするためにモデルを微調整すること、(2)ネガティブなプロンプトを活用するトレーニング不要な指導方法の2つの主要なアプローチが登場した。
しかし,これら2つの直交アプローチを組み合わせることで,防御性能が限界あるいは低下することが少なくない。
この観察は、2つのパラダイム間の重要な非互換性を示し、それらの組み合わせの有効性を妨げている。
本研究では, 学習自由な手法で用いられる負のプロンプトを, 概念反転によって得られる暗黙の負の埋め込みに置き換える, 概念的に単純だが実験的に堅牢な手法を提案することにより, この問題に対処する。
我々の手法はどちらのアプローチも変更する必要がなく、既存のパイプラインに容易に組み込める。
我々は、その効果をヌードと暴力のベンチマークで実験的に検証し、入力プロンプトのコアセマンティクスを保ちながら、防御成功率を一貫した改善を実証した。
関連論文リスト
- Erosion Attack for Adversarial Training to Enhance Semantic Segmentation Robustness [43.63509019035562]
EroSeg-AT は,EroSeg を利用した脆弱性認識型対人訓練フレームワークである。
EroSegはまず、ピクセルレベルの信頼度に基づいて機密画素を選択し、その後徐々に高信頼画素への摂動を伝播させ、サンプルのセマンティック一貫性を効果的に破壊する。
論文 参考訳(メタデータ) (2026-01-21T12:52:09Z) - Continual Unlearning for Text-to-Image Diffusion Models: A Regularization Perspective [35.50502807526103]
テキスト・画像拡散モデルにおける連続的アンラーニングに関する最初の体系的研究について述べる。
一般的なアンラーニング手法は, 数回だけ要求した後で, 急速にユーティリティーの崩壊に悩まされることを示す。
パラメータドリフトをサブスペースに制約する勾配投影法を提案する。
論文 参考訳(メタデータ) (2025-11-11T08:33:16Z) - Modeling the Attack: Detecting AI-Generated Text by Quantifying Adversarial Perturbations [2.7620215077666557]
現代の検出器は敵の攻撃に弱いことで知られており、パラフレーズは効果的な回避技術として際立っている。
本稿では,まず,標準的な対人訓練の限界を定量化することにより,対人的堅牢性の比較研究を行う。
次に、新しい、はるかに回復力のある検出フレームワークを紹介します。
論文 参考訳(メタデータ) (2025-09-22T13:03:53Z) - Paying Alignment Tax with Contrastive Learning [6.232983467016873]
現在のデバイアスのアプローチは、事実の正確性や知識の保持といったモデル能力の低下をもたらすことが多い。
本稿では, 慎重に構築された肯定的, 否定的な例を通して学習する, 対照的な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-25T21:26:18Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - AdvAnchor: Enhancing Diffusion Model Unlearning with Adversarial Anchors [61.007590285263376]
セキュリティ上の懸念から、研究者たちは微調整によって不適切な概念を学ばざるを得なくなった。
最近の微調整手法は、望ましくない概念を排除し、他の概念を保存することの間のかなりの性能のトレードオフを示す。
本稿では,貿易問題を軽減するために,敵対的アンカーを生成する新しいアプローチであるAdvAnchorを提案する。
論文 参考訳(メタデータ) (2024-12-28T04:44:07Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - ADDMU: Detection of Far-Boundary Adversarial Examples with Data and
Model Uncertainty Estimation [125.52743832477404]
AED(Adversarial Examples Detection)は、敵攻撃に対する重要な防御技術である。
本手法は, 正逆検出とFB逆検出の2種類の不確実性推定を組み合わせた新しい手法である textbfADDMU を提案する。
提案手法は,各シナリオにおいて,従来の手法よりも3.6と6.0のEmphAUC点が優れていた。
論文 参考訳(メタデータ) (2022-10-22T09:11:12Z) - Improving White-box Robustness of Pre-processing Defenses via Joint Adversarial Training [106.34722726264522]
対向騒音の干渉を軽減するため,様々な対向防御技術が提案されている。
プレプロセス法は、ロバストネス劣化効果に悩まされることがある。
この負の効果の潜在的な原因は、敵の訓練例が静的であり、前処理モデルとは独立していることである。
本稿では,JATP(Joint Adversarial Training Based Pre-processing)防衛法を提案する。
論文 参考訳(メタデータ) (2021-06-10T01:45:32Z) - Binary Classification from Positive Data with Skewed Confidence [85.18941440826309]
肯定的信頼度(Pconf)分類は、有望な弱教師付き学習法である。
実際には、信頼はアノテーションプロセスで生じるバイアスによって歪められることがある。
本稿では、スキュード信頼度のパラメータ化モデルを導入し、ハイパーパラメータを選択する方法を提案する。
論文 参考訳(メタデータ) (2020-01-29T00:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。