論文の概要: Towards SFW sampling for diffusion models via external conditioning
- arxiv url: http://arxiv.org/abs/2505.08817v1
- Date: Mon, 12 May 2025 17:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.234834
- Title: Towards SFW sampling for diffusion models via external conditioning
- Title(参考訳): 外部条件による拡散モデルのSFWサンプリングに向けて
- Authors: Camilo Carvajal Reyes, Joaquín Fontbona, Felipe Tobar,
- Abstract要約: 本稿では,Score-based Generative Model (SBM) における安全な出力を確保するための外部ソースの利用について検討する。
当社のセーフ・フォー・ワーク(SFW)サンプリングは、環境空間内の望ましくない領域からサンプルを誘導する条件軌道補正ステップを実装しています。
テキストから画像へのSBM安定拡散実験により,提案したSFWサンプリング器が明示的コンテンツの生成を効果的に抑制することを確認した。
- 参考スコア(独自算出の注目度): 1.0923877073891446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Score-based generative models (SBM), also known as diffusion models, are the de facto state of the art for image synthesis. Despite their unparalleled performance, SBMs have recently been in the spotlight for being tricked into creating not-safe-for-work (NSFW) content, such as violent images and non-consensual nudity. Current approaches that prevent unsafe generation are based on the models' own knowledge, and the majority of them require fine-tuning. This article explores the use of external sources for ensuring safe outputs in SBMs. Our safe-for-work (SFW) sampler implements a Conditional Trajectory Correction step that guides the samples away from undesired regions in the ambient space using multimodal models as the source of conditioning. Furthermore, using Contrastive Language Image Pre-training (CLIP), our method admits user-defined NSFW classes, which can vary in different settings. Our experiments on the text-to-image SBM Stable Diffusion validate that the proposed SFW sampler effectively reduces the generation of explicit content while being competitive with other fine-tuning-based approaches, as assessed via independent NSFW detectors. Moreover, we evaluate the impact of the SFW sampler on image quality and show that the proposed correction scheme comes at a minor cost with negligible effect on samples not needing correction. Our study confirms the suitability of the SFW sampler towards aligned SBM models and the potential of using model-agnostic conditioning for the prevention of unwanted images.
- Abstract(参考訳): 拡散モデルとしても知られるスコアベース生成モデル(SBM)は、画像合成の事実上の最先端である。
例外のない性能にもかかわらず、SBMは最近、暴力的な画像や非合意ヌードなど、安全でない作業用コンテンツ(NSFW)を作成することを騙されたことで注目を浴びている。
安全でない生成を防ぐための現在のアプローチはモデル自身の知識に基づいており、その大半は微調整が必要である。
本稿では、SBMの安全な出力を確保するための外部ソースの使用について検討する。
当社のセーフ・フォー・ワーク(SFW)サンプルは、条件付けの源としてマルチモーダルモデルを用いて、環境空間の望ましくない領域からサンプルを誘導するコンディショナル・トラジェクトリ・コレクション・ステップを実装している。
さらに,Contrastive Language Image Pre-training (CLIP) を用いて,ユーザ定義のNSFWクラスを認め,異なる設定で変更できる。
テキスト・ツー・イメージの安定拡散実験により,提案したSFWサンプリング器は,独立したNSFW検出器を用いて評価した,他の微調整に基づくアプローチと競合しながら,明示的なコンテンツの生成を効果的に低減することを確認した。
さらに, 画像品質に及ぼすSFW試料の影響を評価し, 補正を必要としない試料に対して, 補正方式が最小限のコストで適用可能であることを示す。
本研究は,SBMモデルに対するSFWサンプリング装置の適合性を確認し,不必要な画像の防止にモデル非依存条件の適用の可能性を確認した。
関連論文リスト
- Training-Free Safe Denoisers for Safe Use of Diffusion Models [49.045799120267915]
強力な拡散モデル(DM)は、安全でない作業用コンテンツ(NSFW)を生成したり、忘れられたい個人の著作権のある資料やデータを生成するためにしばしば誤用される。
我々は,データ分布の否定領域を回避しつつ,高品質なサンプルを生成する実用的なアルゴリズムを開発した。
これらの結果は、DMをより安全に使用するための、トレーニング不要の安全なデノイザーの大きな可能性を示唆している。
論文 参考訳(メタデータ) (2025-02-11T23:14:39Z) - CROPS: Model-Agnostic Training-Free Framework for Safe Image Synthesis with Latent Diffusion Models [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
我々は、NSFW画像を生成する敵攻撃に対して、追加の訓練を必要とせずに容易に防御できるモデルに依存しないフレームワークであるCROPSを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - Breaking Free: How to Hack Safety Guardrails in Black-Box Diffusion Models! [52.0855711767075]
EvoSeedは、フォトリアリスティックな自然対向サンプルを生成するための進化戦略に基づくアルゴリズムフレームワークである。
我々は,CMA-ESを用いて初期種ベクトルの探索を最適化し,条件付き拡散モデルで処理すると,自然逆数サンプルをモデルで誤分類する。
実験の結果, 生成した対向画像は画像品質が高く, 安全分類器を通過させることで有害なコンテンツを生成する懸念が高まっていることがわかった。
論文 参考訳(メタデータ) (2024-02-07T09:39:29Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - How to Trust Your Diffusion Model: A Convex Optimization Approach to
Conformal Risk Control [9.811982443156063]
本稿では、画像から画像への回帰タスクに着目し、リスク制御予測セット(RCPS)の手順を一般化する。
提案手法は, 平均間隔長を最大化しつつ, 多次元リスク制御を可能にする新しい凸最適化手法に依存している。
本研究は,腹部の自然像とCTスキャンの2つの実世界の画像記述問題に対するアプローチについて述べる。
論文 参考訳(メタデータ) (2023-02-07T23:01:16Z) - Are Diffusion Models Vulnerable to Membership Inference Attacks? [26.35177414594631]
拡散に基づく生成モデルは、画像合成に大きな可能性を示しているが、それらが引き起こすセキュリティとプライバシのリスクに関する研究が不足している。
共通プライバシー問題であるMIAに対する拡散モデルの脆弱性について検討する。
ステップワイズ・エラー比較メンバーシップ推論(SecMI)は,各時刻における前処理後推定のマッチングを評価することで,メンバーシップを推測するクエリベースのMIAである。
論文 参考訳(メタデータ) (2023-02-02T18:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。