論文の概要: Modular Energy Steering for Safe Text-to-Image Generation with Foundation Models
- arxiv url: http://arxiv.org/abs/2604.02265v1
- Date: Thu, 02 Apr 2026 16:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.93055
- Title: Modular Energy Steering for Safe Text-to-Image Generation with Foundation Models
- Title(参考訳): 基本モデルを用いた安全なテキスト・画像生成のためのモジュール型エネルギーステアリング
- Authors: Yaoteng Tan, Zikui Cai, M. Salman Asif,
- Abstract要約: 本稿では,凍結した基礎モデルからの勾配フィードバックを利用して,基礎となるジェネレータを変更することなく,生成プロセスのガイドを行う推論時ステアリングフレームワークを提案する。
本フレームワークは,基本モデルをセマンティックエネルギ推定器として活用するための原則的アプローチを提供し,テキスト・画像生成のための信頼性とスケーラブルな安全制御を実現する。
- 参考スコア(独自算出の注目度): 19.89268359258615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling the behavior of text-to-image generative models is critical for safe and practical deployment. Existing safety approaches typically rely on model fine-tuning or curated datasets, which can degrade generation quality or limit scalability. We propose an inference-time steering framework that leverages gradient feedback from frozen pretrained foundation models to guide the generation process without modifying the underlying generator. Our key observation is that vision-language foundation models encode rich semantic representations that can be repurposed as off-the-shelf supervisory signals during generation. By injecting such feedback through clean latent estimates at each sampling step, our method formulates safety steering as an energy-based sampling problem. This design enables modular, training-free safety control that is compatible with both diffusion and flow-matching models and can generalize across diverse visual concepts. Experiments demonstrate state-of-the-art robustness against NSFW red-teaming benchmarks and effective multi-target steering, while preserving high generation quality on benign non-targeted prompts. Our framework provides a principled approach for utilizing foundation models as semantic energy estimators, enabling reliable and scalable safety control for text-to-image generation.
- Abstract(参考訳): テキストから画像への生成モデルの振る舞いを制御することは、安全で実用的なデプロイにとって重要である。
既存の安全性アプローチは通常、モデル微調整またはキュレートされたデータセットに依存しており、生成品質の低下やスケーラビリティの制限が可能である。
本稿では,凍結した基礎モデルからの勾配フィードバックを利用して,基礎となるジェネレータを変更することなく,生成プロセスのガイドを行う推論時ステアリングフレームワークを提案する。
我々のキーとなる観察は、視覚言語基盤モデルは、生成時にオフザシェルフの監視信号として再利用できるリッチなセマンティック表現を符号化することである。
これらのフィードバックを各サンプリングステップでクリーンな潜伏推定によって注入することにより、エネルギーベースのサンプリング問題として安全ステアリングを定式化する。
この設計は、拡散モデルとフローマッチングモデルの両方と互換性があり、多様な視覚概念をまたいで一般化できるモジュラーでトレーニング不要な安全制御を可能にする。
実験では、NSFWのレッドチームベンチマークと効果的なマルチターゲットステアリングに対する最先端のロバスト性を示し、良質な非ターゲットプロンプトの高次品質を保っている。
本フレームワークは,基本モデルをセマンティックエネルギ推定器として活用するための原則的アプローチを提供し,テキスト・画像生成のための信頼性とスケーラブルな安全制御を実現する。
関連論文リスト
- Provably Safe Generative Sampling with Constricting Barrier Functions [1.8377602530643375]
フローベース生成モデルは複雑なデータ分布の学習において顕著な成功を収めた。
本稿では,事前学習した生成モデルのオンラインシールドとして機能する安全フィルタリングフレームワークを提案する。
本機構は, 各サンプリングステップにおいて, 元のモデルからの分布シフトを最小限に抑えながら, 安全なサンプリングを保証する。
論文 参考訳(メタデータ) (2026-02-24T23:06:58Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - CGCE: Classifier-Guided Concept Erasure in Generative Models [53.7410000675294]
概念消去は、事前訓練されたモデルから望ましくない概念を取り除くために開発された。
既存の方法は、削除されたコンテンツを再生できる敵攻撃に弱いままである。
多様な生成モデルに対して堅牢な概念消去を提供する効率的なプラグアンドプレイフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-08T05:38:18Z) - SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization [22.225141381422873]
有害なコンテンツを生成するテキストと画像の拡散モデルに対する懸念が高まっている。
概念アンラーニングや安全ガイダンスのようなポストホックモデルの介入技術は、これらのリスクを軽減するために開発されている。
本稿では,自己診断と詳細な自己制御を行うための安全生成フレームワークであるDector-and-Guide(DAG)を提案する。
DAGは最先端の安全な生成性能を実現し、有害性軽減とテキスト追跡性能を現実のプロンプトでバランスさせる。
論文 参考訳(メタデータ) (2025-03-19T13:37:52Z) - CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。
CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。
提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文 参考訳(メタデータ) (2024-10-07T00:55:42Z) - SteerDiff: Steering towards Safe Text-to-Image Diffusion Models [6.112695628229525]
テキスト・ツー・イメージ(T2I)拡散モデルは不適切なコンテンツを生成するために誤用することができる。
本稿では,ユーザ入力と拡散モデルの間の仲介として機能する軽量適応モジュールであるSteerDiffを紹介する。
提案手法の有効性を評価するために,様々な概念の未学習タスクに対して広範な実験を行う。
論文 参考訳(メタデータ) (2024-10-03T17:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。