論文の概要: The Safety-Aware Denoiser for Text Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.08116v1
- Date: Tue, 28 Apr 2026 00:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.713147
- Title: The Safety-Aware Denoiser for Text Diffusion Models
- Title(参考訳): テキスト拡散モデルの安全性を考慮したデノイザ
- Authors: Amman Yusuf, Zhejun Jiang, Mijung Park,
- Abstract要約: 本稿では,テキスト拡散モデルにおける安全誘導フレームワークであるSADを提案する。
SADは、最終復調工程におけるテキストサンプルが確実に安全な領域に向けて操られるように反復復調工程を変更する。
危険分類, 記憶, 脱獄に関して, SADを用いて生成したテキストの安全性を評価する。
- 参考スコア(独自算出の注目度): 1.6800992804614623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work on text diffusion models offers a promising alternative to autoregressive generation, but controlling their safety remains underexplored. Existing safety approaches are geared toward autoregressive models and typically rely on post-hoc filtering or inference-time interventions. These are inadequate for effectively addressing safety risks in text diffusion models. We propose the Safety-Aware Denoiser (SAD), a safety-guidance framework in text diffusion models. The SAD modifies the iterative denoising process such that the text sample at the final denoising step is steered toward provably safe regions of the text space. This inference-time method can integrate safety constraints into the denoiser, avoiding computationally expensive retraining of the underlying diffusion model and enabling flexible, lightweight safety guidance. We evaluate the safety of the generated text using the SAD, with respect to hazard taxonomy, memorization, and jailbreak. Experimental results show that SAD substantially reduces unsafe generations while preserving generation quality, diversity, and fluency, outperforming existing methods. These results demonstrate that our safety guidance during denoising provides an effective and scalable mechanism for enforcing safety in text diffusion models.
- Abstract(参考訳): テキスト拡散モデルに関する最近の研究は、自己回帰生成に代わる有望な代替手段を提供するが、それらの安全性の制御は未検討のままである。
既存の安全アプローチは自己回帰モデルに向けられており、一般的にはポストホックフィルタリングや推論時間の介入に依存している。
これらは、テキスト拡散モデルにおける安全性リスクに効果的に対処するには不十分である。
本稿では,テキスト拡散モデルにおける安全誘導フレームワークであるSADを提案する。
SADは、最終復調工程におけるテキストサンプルが、テキスト空間の確実に安全な領域に向けて操られるように反復復調工程を変更する。
この推論時間法は、デノイザに安全制約を組み込むことができ、基礎となる拡散モデルの計算的に高価な再トレーニングを回避し、フレキシブルで軽量な安全ガイダンスを可能にする。
危険分類, 記憶, 脱獄に関して, SADを用いて生成したテキストの安全性を評価する。
実験結果から,SADは生成品質,多様性,頻度を保ちながら,安全でない世代を著しく低減し,既存手法よりも優れていた。
これらの結果から,本手法はテキスト拡散モデルの安全性向上に有効かつスケーラブルなメカニズムを提供することを示す。
関連論文リスト
- Adaptive Steering and Remasking for Safe Generation in Diffusion Language Models [6.107855416893071]
Diffusion Language Models (DLMs) は自己回帰型言語モデルに代わる有望な選択肢を提供する。
本稿では,段階的介入に基づく推論時防衛フレームワークを提案する。
われわれのアプローチは、ジェイルブレイクの成功率を0.64%まで下げる一方で、オリジナルのモデルの性能に近い世代品質を保っている。
論文 参考訳(メタデータ) (2026-05-13T05:56:45Z) - SafeCtrl: Region-Based Safety Control for Text-to-Image Diffusion via Detect-Then-Suppress [48.20360860166279]
SafeCtrlは軽量で非侵襲的なプラグインで、まず安全でないコンテンツを正確にローカライズします。
強硬なA-to-B置換を行う代わりに、SafeCtrlは有害なセマンティクスを抑える。
論文 参考訳(メタデータ) (2025-08-16T04:28:52Z) - Responsible Diffusion Models via Constraining Text Embeddings within Safe Regions [35.28819408507869]
また、NSFW(Not Safe for Work)コンテンツを作成し、社会的偏見を示す可能性を懸念している。
本稿では,安全な領域に埋め込まれたテキストの埋め込みを制限するために,埋め込み空間における意味方向ベクトルを同定する,新たな自己発見手法を提案する。
本手法は, 拡散モデルにより生ずるNSFW含量と社会的バイアスを, 最先端のベースラインと比較して効果的に低減することができる。
論文 参考訳(メタデータ) (2025-05-21T12:10:26Z) - Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization [22.225141381422873]
有害なコンテンツを生成するテキストと画像の拡散モデルに対する懸念が高まっている。
概念アンラーニングや安全ガイダンスのようなポストホックモデルの介入技術は、これらのリスクを軽減するために開発されている。
本稿では,自己診断と詳細な自己制御を行うための安全生成フレームワークであるDector-and-Guide(DAG)を提案する。
DAGは最先端の安全な生成性能を実現し、有害性軽減とテキスト追跡性能を現実のプロンプトでバランスさせる。
論文 参考訳(メタデータ) (2025-03-19T13:37:52Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts [63.61248884015162]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - SafeDiffuser: Safe Planning with Diffusion Probabilistic Models [97.80042457099718]
拡散モデルに基づくアプローチは、データ駆動計画において有望であるが、安全保証はない。
我々は,拡散確率モデルが仕様を満たすことを保証するために,SafeDiffuserと呼ばれる新しい手法を提案する。
提案手法は,迷路経路の生成,足歩行ロボットの移動,空間操作など,安全な計画作業の一連のテストを行う。
論文 参考訳(メタデータ) (2023-05-31T19:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。