Fugu-MT 論文翻訳(概要): SafeCFG: Redirecting Harmful Classifier-Free Guidance for Safe Generation

論文の概要: SafeCFG: Redirecting Harmful Classifier-Free Guidance for Safe Generation

arxiv url: http://arxiv.org/abs/2412.16039v1
Date: Fri, 20 Dec 2024 16:40:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-23 18:46:09.023373
Title: SafeCFG: Redirecting Harmful Classifier-Free Guidance for Safe Generation
Title（参考訳）: SafeCFG: セーフジェネレーションのための有害なクラシファイアフリーガイダンスのリダイレクト
Authors: Jiadong Pan, Hongcheng Gao, Liang Li, Zheng-Jun Zha, Qingming Huang, Jiebo Luo,
Abstract要約: 拡散モデル(DM)はテキスト・トゥ・イメージ(T2I)タスクにおいて例外的な性能を示した。いくつかの安全なガイダンス手法は、有害な画像を生成するリスクを軽減することを目的としているが、クリーンな画像生成の品質を低下させることも多い。我々は、画像生成時に有害なCFG方向を保ちながら有害なCFG方向をリダイレクトするHGR(Harmful Guidance Redirector)を導入する。
参考スコア（独自算出の注目度）: 125.0706666755989
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models (DMs) have demonstrated exceptional performance in text-to-image (T2I) tasks, leading to their widespread use. With the introduction of classifier-free guidance (CFG), the quality of images generated by DMs is improved. However, DMs can generate more harmful images by maliciously guiding the image generation process through CFG. Some safe guidance methods aim to mitigate the risk of generating harmful images but often reduce the quality of clean image generation. To address this issue, we introduce the Harmful Guidance Redirector (HGR), which redirects harmful CFG direction while preserving clean CFG direction during image generation, transforming CFG into SafeCFG and achieving high safety and quality generation. We train HGR to redirect multiple harmful CFG directions simultaneously, demonstrating its ability to eliminate various harmful elements while preserving high-quality generation. Additionally, we find that HGR can detect image harmfulness, allowing for unsupervised fine-tuning of safe diffusion models without pre-defined clean or harmful labels. Experimental results show that by incorporating HGR, images generated by diffusion models achieve both high quality and strong safety, and safe DMs trained through unsupervised methods according to the harmfulness detected by HGR also exhibit good safety performance. The codes will be publicly available.
Abstract（参考訳）: 拡散モデル(DM)はテキスト・トゥ・イメージ(T2I)タスクにおいて例外的な性能を示し、広く利用されている。分類器フリーガイダンス(CFG)の導入により、DMによって生成された画像の品質が向上する。しかし、DMは、CFGを介して画像生成プロセスを悪意的に導くことにより、より有害な画像を生成することができる。いくつかの安全なガイダンス手法は、有害な画像を生成するリスクを軽減することを目的としているが、クリーンな画像生成の品質を低下させることも多い。この問題を解決するために、画像生成中にCFGのクリーンな方向を保ちながら有害なCFG方向をリダイレクトするHGR(Harmful Guidance Redirector)を導入し、CFGをSafeCFGに変換し、安全性と品質の高い生成を実現する。我々はHGRに複数の有害CFG方向を同時にリダイレクトするよう訓練し、高品質な生成を保ちながら各種有害元素を除去する能力を示す。さらに,HGRは画像の有害性を検出することができ,クリーンなラベルや有害なラベルを事前に定義することなく,安全な拡散モデルの教師なし微調整を可能にする。実験結果から,HGRを組み込むことにより,拡散モデルにより生成した画像は高品質かつ高安全性を達成でき,HGRが検出した有害度に応じて,教師なし手法で訓練された安全DMも良好な安全性を示すことがわかった。コードは公開されます。

関連論文リスト

GIFT: Gradient-aware Immunization of diffusion models against malicious Fine-Tuning with safe concepts retention [5.429335132446078]
GIFT: 拡散モデルを守るグラディエント対応免疫技術。
論文参考訳（メタデータ） (2025-07-18T01:47:07Z)
Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。 STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文参考訳（メタデータ） (2025-05-22T18:05:16Z)
Towards NSFW-Free Text-to-Image Generation via Safety-Constraint Direct Preference Optimization [30.31991120463517]
既存の研究は、潜在的に有害な概念の下で完全な安全性を保証することができず、また、生成品質と安全性のバランスをとるのに苦労している。本稿では,T2Iモデルにおける安全性アライメントのための新しいフレームワークである,SC-DPO(Safety-Constrained Direct Preference Optimization)を提案する。 SC-DPOは、ヒトが好むサンプルを生成する可能性の最大化を目的として、安全性の制約を一般的なヒトの選好校正に統合する。
論文参考訳（メタデータ） (2025-04-19T13:26:46Z)
Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization [22.225141381422873]
有害なコンテンツを生成するテキストと画像の拡散モデルに対する懸念が高まっている。概念アンラーニングや安全ガイダンスのようなポストホックモデルの介入技術は、これらのリスクを軽減するために開発されている。本稿では,自己診断と詳細な自己制御を行うための安全生成フレームワークであるDector-and-Guide(DAG)を提案する。 DAGは最先端の安全な生成性能を実現し、有害性軽減とテキスト追跡性能を現実のプロンプトでバランスさせる。
論文参考訳（メタデータ） (2025-03-19T13:37:52Z)
SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [50.463399903987245]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。 LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文参考訳（メタデータ） (2025-02-03T04:23:33Z)
MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文参考訳（メタデータ） (2024-12-31T00:06:04Z)
Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文参考訳（メタデータ） (2024-11-30T04:37:38Z)
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文参考訳（メタデータ） (2024-11-21T09:47:13Z)
ShieldDiff: Suppressing Sexual Content Generation from Diffusion Models through Reinforcement Learning [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは、不快な内容の安全でない画像を生成する可能性がある。我々の研究では、T2IモデルからNSFW(職場では安全ではない)コンテンツ生成を排除することに重点を置いています。本稿では,CLIP(Contrastive Language- Image Pre-Trening)とヌード報酬(nudity rewards)から構成される独自の報酬関数を提案する。
論文参考訳（メタデータ） (2024-10-04T19:37:56Z)
Plug-and-Hide: Provable and Adjustable Diffusion Generative Steganography [40.357567971092564]
Generative Steganography (GS) は、生成モデルを用いて、隠蔽画像に頼らずにメッセージを隠蔽する手法である。 GSアルゴリズムは拡散モデル(DM)の強力な生成能力を利用して高忠実度ステゴ画像を生成する。本稿では,DGS(Diffusion Generative Steganography)設定における画像品質,ステガノグラフィセキュリティ,メッセージ抽出精度のトレードオフを再考する。
論文参考訳（メタデータ） (2024-09-07T18:06:47Z)
C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models [57.10361282229501]
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
論文参考訳（メタデータ） (2024-02-05T16:46:16Z)
MITS-GAN: Safeguarding Medical Imaging from Tampering with Generative Adversarial Networks [48.686454485328895]
本研究では,医療画像の改ざんを防止する新しいアプローチであるMITS-GANを紹介する。このアプローチは、人間の目には知覚できない微調整された摂動を導入することで、攻撃者のCT-GANアーキテクチャの出力を妨害する。 CTスキャンによる実験結果から,MITS-GANの優れた性能が確認された。
論文参考訳（メタデータ） (2024-01-17T22:30:41Z)
Attribute-Guided Encryption with Facial Texture Masking [64.77548539959501]
本稿では,顔認識システムからユーザを保護するために,顔テクスチャマスキングを用いた属性ガイド暗号化を提案する。提案手法は,最先端の手法よりも自然な画像を生成する。
論文参考訳（メタデータ） (2023-05-22T23:50:43Z)
RGI: robust GAN-inversion for mask-free image inpainting and unsupervised pixel-wise anomaly detection [18.10039647382319]
本稿では,未知のテクストグロス汚損による画像復元を実現するために,ロバスト・ガン・インバージョン(RGI)法を提案する。復元された画像と識別された領域のマスクは、地上の真実に収束することを示す。提案したRGI/R-RGI法は,2つの重要な応用とSOTA(State-of-the-art)性能を統一する。
論文参考訳（メタデータ） (2023-02-24T05:43:03Z)
Guided Diffusion Model for Adversarial Purification [103.4596751105955]
敵攻撃は、様々なアルゴリズムやフレームワークでディープニューラルネットワーク(DNN)を妨害する。本稿では,GDMP ( Guided diffusion model for purification) と呼ばれる新しい精製法を提案する。様々なデータセットにわたる包括的実験において,提案したGDMPは,敵対的攻撃によって引き起こされた摂動を浅い範囲に減少させることを示した。
論文参考訳（メタデータ） (2022-05-30T10:11:15Z)
CUDA-GR: Controllable Unsupervised Domain Adaptation for Gaze Redirection [3.0141238193080295]
視線リダイレクトの目的は、画像中の視線を所望の方向に向けて操作することである。生成的対向ネットワークの進歩は、フォトリアリスティック画像の生成において優れた結果を示している。このような微調整の制御を可能にするためには、非常に高価なトレーニングデータに対して、基礎となる真理アノテーションを得る必要がある。
論文参考訳（メタデータ） (2021-06-21T04:39:42Z)
Blur, Noise, and Compression Robust Generative Adversarial Networks [85.68632778835253]
劣化画像から直接クリーンな画像生成装置を学習するために, ぼかし, ノイズ, 圧縮堅牢なGAN(BNCR-GAN)を提案する。 NR-GANにインスパイアされたBNCR-GANは、画像、ぼやけたカーネル、ノイズ、品質要素ジェネレータで構成される多重ジェネレータモデルを使用する。 CIFAR-10の大規模比較とFFHQの一般性解析によるBNCR-GANの有効性を実証する。
論文参考訳（メタデータ） (2020-03-17T17:56:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。