論文の概要: SafeCFG: Redirecting Harmful Classifier-Free Guidance for Safe Generation
- arxiv url: http://arxiv.org/abs/2412.16039v1
- Date: Fri, 20 Dec 2024 16:40:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:46.138567
- Title: SafeCFG: Redirecting Harmful Classifier-Free Guidance for Safe Generation
- Title(参考訳): SafeCFG: セーフジェネレーションのための有害なクラシファイアフリーガイダンスのリダイレクト
- Authors: Jiadong Pan, Hongcheng Gao, Liang Li, Zheng-Jun Zha, Qingming Huang, Jiebo Luo,
- Abstract要約: 拡散モデル(DM)はテキスト・トゥ・イメージ(T2I)タスクにおいて例外的な性能を示した。
いくつかの安全なガイダンス手法は、有害な画像を生成するリスクを軽減することを目的としているが、クリーンな画像生成の品質を低下させることも多い。
我々は、画像生成時に有害なCFG方向を保ちながら有害なCFG方向をリダイレクトするHGR(Harmful Guidance Redirector)を導入する。
- 参考スコア(独自算出の注目度): 125.0706666755989
- License:
- Abstract: Diffusion models (DMs) have demonstrated exceptional performance in text-to-image (T2I) tasks, leading to their widespread use. With the introduction of classifier-free guidance (CFG), the quality of images generated by DMs is improved. However, DMs can generate more harmful images by maliciously guiding the image generation process through CFG. Some safe guidance methods aim to mitigate the risk of generating harmful images but often reduce the quality of clean image generation. To address this issue, we introduce the Harmful Guidance Redirector (HGR), which redirects harmful CFG direction while preserving clean CFG direction during image generation, transforming CFG into SafeCFG and achieving high safety and quality generation. We train HGR to redirect multiple harmful CFG directions simultaneously, demonstrating its ability to eliminate various harmful elements while preserving high-quality generation. Additionally, we find that HGR can detect image harmfulness, allowing for unsupervised fine-tuning of safe diffusion models without pre-defined clean or harmful labels. Experimental results show that by incorporating HGR, images generated by diffusion models achieve both high quality and strong safety, and safe DMs trained through unsupervised methods according to the harmfulness detected by HGR also exhibit good safety performance. The codes will be publicly available.
- Abstract(参考訳): 拡散モデル(DM)はテキスト・トゥ・イメージ(T2I)タスクにおいて例外的な性能を示し、広く利用されている。
分類器フリーガイダンス(CFG)の導入により、DMによって生成された画像の品質が向上する。
しかし、DMは、CFGを介して画像生成プロセスを悪意的に導くことにより、より有害な画像を生成することができる。
いくつかの安全なガイダンス手法は、有害な画像を生成するリスクを軽減することを目的としているが、クリーンな画像生成の品質を低下させることも多い。
この問題を解決するために、画像生成中にCFGのクリーンな方向を保ちながら有害なCFG方向をリダイレクトするHGR(Harmful Guidance Redirector)を導入し、CFGをSafeCFGに変換し、安全性と品質の高い生成を実現する。
我々はHGRに複数の有害CFG方向を同時にリダイレクトするよう訓練し、高品質な生成を保ちながら各種有害元素を除去する能力を示す。
さらに,HGRは画像の有害性を検出することができ,クリーンなラベルや有害なラベルを事前に定義することなく,安全な拡散モデルの教師なし微調整を可能にする。
実験結果から,HGRを組み込むことにより,拡散モデルにより生成した画像は高品質かつ高安全性を達成でき,HGRが検出した有害度に応じて,教師なし手法で訓練された安全DMも良好な安全性を示すことがわかった。
コードは公開されます。
関連論文リスト
- Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。
安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。
我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - Plug-and-Hide: Provable and Adjustable Diffusion Generative Steganography [40.357567971092564]
Generative Steganography (GS) は、生成モデルを用いて、隠蔽画像に頼らずにメッセージを隠蔽する手法である。
GSアルゴリズムは拡散モデル(DM)の強力な生成能力を利用して高忠実度ステゴ画像を生成する。
本稿では,DGS(Diffusion Generative Steganography)設定における画像品質,ステガノグラフィセキュリティ,メッセージ抽出精度のトレードオフを再考する。
論文 参考訳(メタデータ) (2024-09-07T18:06:47Z) - C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models [57.10361282229501]
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。
具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。
検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
論文 参考訳(メタデータ) (2024-02-05T16:46:16Z) - MITS-GAN: Safeguarding Medical Imaging from Tampering with Generative Adversarial Networks [48.686454485328895]
本研究では,医療画像の改ざんを防止する新しいアプローチであるMITS-GANを紹介する。
このアプローチは、人間の目には知覚できない微調整された摂動を導入することで、攻撃者のCT-GANアーキテクチャの出力を妨害する。
CTスキャンによる実験結果から,MITS-GANの優れた性能が確認された。
論文 参考訳(メタデータ) (2024-01-17T22:30:41Z) - RGI: robust GAN-inversion for mask-free image inpainting and
unsupervised pixel-wise anomaly detection [18.10039647382319]
本稿では,未知のテクストグロス汚損による画像復元を実現するために,ロバスト・ガン・インバージョン(RGI)法を提案する。
復元された画像と識別された領域のマスクは、地上の真実に収束することを示す。
提案したRGI/R-RGI法は,2つの重要な応用とSOTA(State-of-the-art)性能を統一する。
論文 参考訳(メタデータ) (2023-02-24T05:43:03Z) - Guided Diffusion Model for Adversarial Purification [103.4596751105955]
敵攻撃は、様々なアルゴリズムやフレームワークでディープニューラルネットワーク(DNN)を妨害する。
本稿では,GDMP ( Guided diffusion model for purification) と呼ばれる新しい精製法を提案する。
様々なデータセットにわたる包括的実験において,提案したGDMPは,敵対的攻撃によって引き起こされた摂動を浅い範囲に減少させることを示した。
論文 参考訳(メタデータ) (2022-05-30T10:11:15Z) - CUDA-GR: Controllable Unsupervised Domain Adaptation for Gaze
Redirection [3.0141238193080295]
視線リダイレクトの目的は、画像中の視線を所望の方向に向けて操作することである。
生成的対向ネットワークの進歩は、フォトリアリスティック画像の生成において優れた結果を示している。
このような微調整の制御を可能にするためには、非常に高価なトレーニングデータに対して、基礎となる真理アノテーションを得る必要がある。
論文 参考訳(メタデータ) (2021-06-21T04:39:42Z) - Blur, Noise, and Compression Robust Generative Adversarial Networks [85.68632778835253]
劣化画像から直接クリーンな画像生成装置を学習するために, ぼかし, ノイズ, 圧縮堅牢なGAN(BNCR-GAN)を提案する。
NR-GANにインスパイアされたBNCR-GANは、画像、ぼやけたカーネル、ノイズ、品質要素ジェネレータで構成される多重ジェネレータモデルを使用する。
CIFAR-10の大規模比較とFFHQの一般性解析によるBNCR-GANの有効性を実証する。
論文 参考訳(メタデータ) (2020-03-17T17:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。