論文の概要: SafeCFG: Redirecting Harmful Classifier-Free Guidance for Safe Generation
- arxiv url: http://arxiv.org/abs/2412.16039v1
- Date: Fri, 20 Dec 2024 16:40:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:46.138567
- Title: SafeCFG: Redirecting Harmful Classifier-Free Guidance for Safe Generation
- Title(参考訳): SafeCFG: セーフジェネレーションのための有害なクラシファイアフリーガイダンスのリダイレクト
- Authors: Jiadong Pan, Hongcheng Gao, Liang Li, Zheng-Jun Zha, Qingming Huang, Jiebo Luo,
- Abstract要約: 拡散モデル(DM)はテキスト・トゥ・イメージ(T2I)タスクにおいて例外的な性能を示した。
いくつかの安全なガイダンス手法は、有害な画像を生成するリスクを軽減することを目的としているが、クリーンな画像生成の品質を低下させることも多い。
我々は、画像生成時に有害なCFG方向を保ちながら有害なCFG方向をリダイレクトするHGR(Harmful Guidance Redirector)を導入する。
- 参考スコア(独自算出の注目度): 125.0706666755989
- License:
- Abstract: Diffusion models (DMs) have demonstrated exceptional performance in text-to-image (T2I) tasks, leading to their widespread use. With the introduction of classifier-free guidance (CFG), the quality of images generated by DMs is improved. However, DMs can generate more harmful images by maliciously guiding the image generation process through CFG. Some safe guidance methods aim to mitigate the risk of generating harmful images but often reduce the quality of clean image generation. To address this issue, we introduce the Harmful Guidance Redirector (HGR), which redirects harmful CFG direction while preserving clean CFG direction during image generation, transforming CFG into SafeCFG and achieving high safety and quality generation. We train HGR to redirect multiple harmful CFG directions simultaneously, demonstrating its ability to eliminate various harmful elements while preserving high-quality generation. Additionally, we find that HGR can detect image harmfulness, allowing for unsupervised fine-tuning of safe diffusion models without pre-defined clean or harmful labels. Experimental results show that by incorporating HGR, images generated by diffusion models achieve both high quality and strong safety, and safe DMs trained through unsupervised methods according to the harmfulness detected by HGR also exhibit good safety performance. The codes will be publicly available.
- Abstract(参考訳): 拡散モデル(DM)はテキスト・トゥ・イメージ(T2I)タスクにおいて例外的な性能を示し、広く利用されている。
分類器フリーガイダンス(CFG)の導入により、DMによって生成された画像の品質が向上する。
しかし、DMは、CFGを介して画像生成プロセスを悪意的に導くことにより、より有害な画像を生成することができる。
いくつかの安全なガイダンス手法は、有害な画像を生成するリスクを軽減することを目的としているが、クリーンな画像生成の品質を低下させることも多い。
この問題を解決するために、画像生成中にCFGのクリーンな方向を保ちながら有害なCFG方向をリダイレクトするHGR(Harmful Guidance Redirector)を導入し、CFGをSafeCFGに変換し、安全性と品質の高い生成を実現する。
我々はHGRに複数の有害CFG方向を同時にリダイレクトするよう訓練し、高品質な生成を保ちながら各種有害元素を除去する能力を示す。
さらに,HGRは画像の有害性を検出することができ,クリーンなラベルや有害なラベルを事前に定義することなく,安全な拡散モデルの教師なし微調整を可能にする。
実験結果から,HGRを組み込むことにより,拡散モデルにより生成した画像は高品質かつ高安全性を達成でき,HGRが検出した有害度に応じて,教師なし手法で訓練された安全DMも良好な安全性を示すことがわかった。
コードは公開されます。
関連論文リスト
- CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。
安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。
我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - Plug-and-Hide: Provable and Adjustable Diffusion Generative Steganography [40.357567971092564]
Generative Steganography (GS) は、生成モデルを用いて、隠蔽画像に頼らずにメッセージを隠蔽する手法である。
GSアルゴリズムは拡散モデル(DM)の強力な生成能力を利用して高忠実度ステゴ画像を生成する。
本稿では,DGS(Diffusion Generative Steganography)設定における画像品質,ステガノグラフィセキュリティ,メッセージ抽出精度のトレードオフを再考する。
論文 参考訳(メタデータ) (2024-09-07T18:06:47Z) - C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models [57.10361282229501]
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。
具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。
検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
論文 参考訳(メタデータ) (2024-02-05T16:46:16Z) - RGI: robust GAN-inversion for mask-free image inpainting and
unsupervised pixel-wise anomaly detection [18.10039647382319]
本稿では,未知のテクストグロス汚損による画像復元を実現するために,ロバスト・ガン・インバージョン(RGI)法を提案する。
復元された画像と識別された領域のマスクは、地上の真実に収束することを示す。
提案したRGI/R-RGI法は,2つの重要な応用とSOTA(State-of-the-art)性能を統一する。
論文 参考訳(メタデータ) (2023-02-24T05:43:03Z) - Guided Diffusion Model for Adversarial Purification [103.4596751105955]
敵攻撃は、様々なアルゴリズムやフレームワークでディープニューラルネットワーク(DNN)を妨害する。
本稿では,GDMP ( Guided diffusion model for purification) と呼ばれる新しい精製法を提案する。
様々なデータセットにわたる包括的実験において,提案したGDMPは,敵対的攻撃によって引き起こされた摂動を浅い範囲に減少させることを示した。
論文 参考訳(メタデータ) (2022-05-30T10:11:15Z) - Blur, Noise, and Compression Robust Generative Adversarial Networks [85.68632778835253]
劣化画像から直接クリーンな画像生成装置を学習するために, ぼかし, ノイズ, 圧縮堅牢なGAN(BNCR-GAN)を提案する。
NR-GANにインスパイアされたBNCR-GANは、画像、ぼやけたカーネル、ノイズ、品質要素ジェネレータで構成される多重ジェネレータモデルを使用する。
CIFAR-10の大規模比較とFFHQの一般性解析によるBNCR-GANの有効性を実証する。
論文 参考訳(メタデータ) (2020-03-17T17:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。