論文の概要: Robust and Generalizable Safety Steering for Text-to-Image Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2605.30049v1
- Date: Thu, 28 May 2026 15:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.412591
- Title: Robust and Generalizable Safety Steering for Text-to-Image Diffusion Transformers
- Title(参考訳): テキスト・画像拡散変換器のロバスト・汎用安全ステアリング
- Authors: Zihao Xue, Yan Wang, Zhen Bi, Long Ma, Zhonglong Zheng, Zeyu Yang, Bingyu Zhu, Longtao Huang, Jie Xiao, Jungang Lou,
- Abstract要約: 安全なステアリングフレームワークであるSafeDIGを提案する。
FLUX.1 DevとStable Diffusion 3.5 Largeの実験は、SafeDIGが一貫してターゲットドメインと全体的な安全でない生成率を減らすことを示している。
- 参考スコア(独自算出の注目度): 28.791649151495008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers have become a powerful backbone for text-to-image generation, but their layered and cross-modal generation process makes safety control fundamentally different from prompt-level filtering or output-level detection. Harmful semantics may be weakly expressed in text representations, progressively bound to visual latents, and finally entangled with rendering dynamics. As a result, safety steering at a fixed layer can be unstable, and a steering mechanism learned from known risks may not transfer reliably to a shifted target risk domain. We propose SafeDIG, a safety steering framework that formulates DiT safety adaptation as position-aware sparse feature transfer. SafeDIG first constructs Sparse Autoencoders over functionally distinct DiT intervention positions and uses robustness-aware pre-training routing to prioritize intervention sites that are expected to remain stable under source-target risk shift. It then separates transferable safety features from domain-specific activation geometry by freezing the SAE encoder as a reusable sparse safety dictionary and adapting only the decoder to the target-domain activation manifold. During inference, SafeDIG combines Blend and Repel operations to steer unsafe activations toward transferred safety manifolds or away from harmful sparse directions. Experiments on FLUX.1 Dev and Stable Diffusion 3.5 Large show that SafeDIG consistently reduces target-domain and overall unsafe generation rates while preserving source-domain safety and image quality.
- Abstract(参考訳): 拡散変換器はテキスト・ツー・イメージ生成の強力なバックボーンとなっているが、層状・クロスモーダルな生成プロセスにより、プロンプトレベルのフィルタリングや出力レベルの検出と安全性制御を根本的に異なるものにしている。
有害なセマンティクスは、テキスト表現で弱く表現され、徐々に視覚的なラテントに結びつき、最終的にレンダリングダイナミクスと絡み合う。
その結果、固定層での安全ステアリングは不安定であり、既知のリスクから得られたステアリング機構は、シフト対象のリスク領域に確実に移行できない。
安全なステアリングフレームワークであるSafeDIGを提案する。
SafeDIGはまず、機能的に異なるDiT介入位置上のスパースオートエンコーダを構築し、ソース目標のリスクシフトの下で安定していると思われる介入サイトを優先するために、ロバストネスを意識した事前トレーニングルーティングを使用する。
次に、再利用可能なスパース安全辞書としてSAEエンコーダを凍結し、デコーダのみをターゲットドメインアクティベーション多様体に適応させることにより、転送可能な安全特徴をドメイン固有のアクティベーション幾何学から分離する。
推論中、SafeDIGはBlendとRepelの操作を組み合わせることで、移動された安全多様体や有害なスパース方向から、安全でないアクティベーションを操る。
FLUX.1の実験
Dev and Stable Diffusion 3.5 大きな例では、SafeDIGはソースドメインの安全性と画像の品質を維持しながら、ターゲットドメインと全体的な安全でない生成率を一貫して削減している。
関連論文リスト
- SafeCtrl: Region-Aware Safety Control for Text-to-Image Diffusion via Detect-Then-Suppress [13.834468340496414]
本研究では,検出-Then-Suppressパラダイム上で動作する地域意識型安全制御フレームワークであるSafeCtrlを提案する。
グローバルな安全介入とは異なり、SafeCtrlはまず、特定のリスク領域を正確にローカライズするために注意誘導検出モジュールを使用する。
SafeCtrlは,最先端の手法に比べて安全性と忠実さのトレードオフが優れていることを示す。
論文 参考訳(メタデータ) (2026-04-05T03:06:17Z) - SafeRoPE: Risk-specific Head-wise Embedding Rotation for Safe Generation in Rectified Flow Transformers [20.61907377210064]
本稿では,変圧器を用いた拡散モデル(MMDiTなど)の安全な生成フレームワークであるSafeRoPEを提案する。
安全でないセマンティクスが頭レベルで解釈可能な低次元部分空間に集中していることを示し、安全クリティカルな頭部の有限セットが安全でない特徴抽出に責任を負うことを示した。
次に、良質な内容や画質を損なうことなく、安全でないセマンティクスを抑えるヘッドワイドなRoPE摂動を導入する。
論文 参考訳(メタデータ) (2026-04-02T09:37:32Z) - Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment [41.47485992177247]
我々は,事前学習型言語モデルを拡張するモジュール型アプローチであるSafe Transformerを提案する。
安全ビットは、モデルの安全分類の解釈可能な信号と制御可能なスイッチの両方として機能する。
赤チームのベンチマークでは、Safe Transformerがほぼゼロのアタック成功率を達成する。
論文 参考訳(メタデータ) (2026-03-06T02:54:16Z) - PoSafeNet: Safe Learning with Poset-Structured Neural Nets [49.854863600271614]
既存のアプローチは、しばしば複数の安全制約を均一に、または固定された優先命令によって強制し、実現不可能と不安定な振る舞いを引き起こす。
我々は、この設定を擬似構造的安全性として定式化し、安全制約を部分的に順序づけられた集合としてモデル化し、安全構成を政策クラスの構造的特性として扱う。
この定式化に基づいて、逐次クローズドフォームプロジェクションを介して安全性を強制する、識別可能な神経安全層であるPoSafeNetを提案する。
論文 参考訳(メタデータ) (2026-01-29T22:03:32Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization [79.14563283347773]
マルチモーダルな大言語モデル (MLLM) は印象的な推論と命令追従能力を示した。
クロスモーダル結合は、個々の入力が良性である場合でも、安全でないセマンティクスを生成する。
自己回帰型マルチモーダル安全アライメントフレームワークであるSafeGRPOを提案する。
論文 参考訳(メタデータ) (2025-11-17T05:09:49Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。