論文の概要: SafeCFG: Controlling Harmful Features with Dynamic Safe Guidance for Safe Generation
- arxiv url: http://arxiv.org/abs/2412.16039v2
- Date: Thu, 29 May 2025 12:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.339517
- Title: SafeCFG: Controlling Harmful Features with Dynamic Safe Guidance for Safe Generation
- Title(参考訳): SafeCFG: 安全な生成のための動的セーフガイダンスによる有害な機能の制御
- Authors: Jiadong Pan, Liang Li, Hongcheng Gao, Zheng-Jun Zha, Qingming Huang, Jiebo Luo,
- Abstract要約: 拡散モデル (DM) はテキストから画像へのタスクにおいて例外的な性能を示した。
CFGを介して画像生成プロセスを悪意的に導くことにより、より有害な画像を生成するために使用できる。
動的安全誘導を用いて有害な特徴を適応的に制御するSafeCFGを提案する。
- 参考スコア(独自算出の注目度): 125.0706666755989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models (DMs) have demonstrated exceptional performance in text-to-image tasks, leading to their widespread use. With the introduction of classifier-free guidance (CFG), the quality of images generated by DMs is significantly improved. However, one can use DMs to generate more harmful images by maliciously guiding the image generation process through CFG. Existing safe alignment methods aim to mitigate the risk of generating harmful images but often reduce the quality of clean image generation. To address this issue, we propose SafeCFG to adaptively control harmful features with dynamic safe guidance by modulating the CFG generation process. It dynamically guides the CFG generation process based on the harmfulness of the prompts, inducing significant deviations only in harmful CFG generations, achieving high quality and safety generation. SafeCFG can simultaneously modulate different harmful CFG generation processes, so it could eliminate harmful elements while preserving high-quality generation. Additionally, SafeCFG provides the ability to detect image harmfulness, allowing unsupervised safe alignment on DMs without pre-defined clean or harmful labels. Experimental results show that images generated by SafeCFG achieve both high quality and safety, and safe DMs trained in our unsupervised manner also exhibit good safety performance.
- Abstract(参考訳): 拡散モデル(DM)は、テキストと画像のタスクにおいて例外的な性能を示し、広く使われるようになった。
分類器フリーガイダンス(CFG)の導入により、DMによって生成された画像の品質が大幅に向上した。
しかし、画像生成過程をCFGを介して悪質に誘導することで、DMを用いてより有害な画像を生成することができる。
既存の安全なアライメント手法は、有害な画像を生成するリスクを軽減することを目的としているが、クリーンな画像生成の品質を低下させることも多い。
そこで本研究では,有害な特徴を動的に制御するSafeCFGを提案する。
プロンプトの有害性に基づいてCFG生成プロセスを動的に誘導し、有害なCFG世代のみに重大な偏差を生じさせ、高品質で安全な生成を実現する。
SafeCFGは異なる有害なCFG生成プロセスを同時に調整できるため、高品質な生成を保ちながら有害な要素を除去できる。
さらに、SafeCFGは画像の有害性を検出する機能を提供しており、クリーンラベルや有害ラベルを事前に定義することなく、DMに対して教師なしの安全なアライメントを可能にする。
実験の結果,SafeCFGが生成した画像は高品質かつ安全であり,教師なしで訓練された安全DMも良好な安全性を示すことがわかった。
関連論文リスト
- Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization [22.225141381422873]
有害なコンテンツを生成するテキストと画像の拡散モデルに対する懸念が高まっている。
概念アンラーニングや安全ガイダンスのようなポストホックモデルの介入技術は、これらのリスクを軽減するために開発されている。
本稿では,自己診断と詳細な自己制御を行うための安全生成フレームワークであるDector-and-Guide(DAG)を提案する。
DAGは最先端の安全な生成性能を実現し、有害性軽減とテキスト追跡性能を現実のプロンプトでバランスさせる。
論文 参考訳(メタデータ) (2025-03-19T13:37:52Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。
我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。
本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文 参考訳(メタデータ) (2024-10-04T19:37:56Z) - Plug-and-Hide: Provable and Adjustable Diffusion Generative Steganography [40.357567971092564]
Generative Steganography (GS) は、生成モデルを用いて、隠蔽画像に頼らずにメッセージを隠蔽する手法である。
GSアルゴリズムは拡散モデル(DM)の強力な生成能力を利用して高忠実度ステゴ画像を生成する。
本稿では,DGS(Diffusion Generative Steganography)設定における画像品質,ステガノグラフィセキュリティ,メッセージ抽出精度のトレードオフを再考する。
論文 参考訳(メタデータ) (2024-09-07T18:06:47Z) - C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models [57.10361282229501]
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。
具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。
検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
論文 参考訳(メタデータ) (2024-02-05T16:46:16Z) - MITS-GAN: Safeguarding Medical Imaging from Tampering with Generative Adversarial Networks [48.686454485328895]
本研究では,医療画像の改ざんを防止する新しいアプローチであるMITS-GANを紹介する。
このアプローチは、人間の目には知覚できない微調整された摂動を導入することで、攻撃者のCT-GANアーキテクチャの出力を妨害する。
CTスキャンによる実験結果から,MITS-GANの優れた性能が確認された。
論文 参考訳(メタデータ) (2024-01-17T22:30:41Z) - RGI: robust GAN-inversion for mask-free image inpainting and
unsupervised pixel-wise anomaly detection [18.10039647382319]
本稿では,未知のテクストグロス汚損による画像復元を実現するために,ロバスト・ガン・インバージョン(RGI)法を提案する。
復元された画像と識別された領域のマスクは、地上の真実に収束することを示す。
提案したRGI/R-RGI法は,2つの重要な応用とSOTA(State-of-the-art)性能を統一する。
論文 参考訳(メタデータ) (2023-02-24T05:43:03Z) - Guided Diffusion Model for Adversarial Purification [103.4596751105955]
敵攻撃は、様々なアルゴリズムやフレームワークでディープニューラルネットワーク(DNN)を妨害する。
本稿では,GDMP ( Guided diffusion model for purification) と呼ばれる新しい精製法を提案する。
様々なデータセットにわたる包括的実験において,提案したGDMPは,敵対的攻撃によって引き起こされた摂動を浅い範囲に減少させることを示した。
論文 参考訳(メタデータ) (2022-05-30T10:11:15Z) - CUDA-GR: Controllable Unsupervised Domain Adaptation for Gaze
Redirection [3.0141238193080295]
視線リダイレクトの目的は、画像中の視線を所望の方向に向けて操作することである。
生成的対向ネットワークの進歩は、フォトリアリスティック画像の生成において優れた結果を示している。
このような微調整の制御を可能にするためには、非常に高価なトレーニングデータに対して、基礎となる真理アノテーションを得る必要がある。
論文 参考訳(メタデータ) (2021-06-21T04:39:42Z) - Blur, Noise, and Compression Robust Generative Adversarial Networks [85.68632778835253]
劣化画像から直接クリーンな画像生成装置を学習するために, ぼかし, ノイズ, 圧縮堅牢なGAN(BNCR-GAN)を提案する。
NR-GANにインスパイアされたBNCR-GANは、画像、ぼやけたカーネル、ノイズ、品質要素ジェネレータで構成される多重ジェネレータモデルを使用する。
CIFAR-10の大規模比較とFFHQの一般性解析によるBNCR-GANの有効性を実証する。
論文 参考訳(メタデータ) (2020-03-17T17:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。