論文の概要: SafeRoPE: Risk-specific Head-wise Embedding Rotation for Safe Generation in Rectified Flow Transformers
- arxiv url: http://arxiv.org/abs/2604.01826v1
- Date: Thu, 02 Apr 2026 09:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.6346
- Title: SafeRoPE: Risk-specific Head-wise Embedding Rotation for Safe Generation in Rectified Flow Transformers
- Title(参考訳): SafeRoPE: 流動変圧器の安全発生のためのリスク特異的頭部埋め込みローテーション
- Authors: Xiang Yang, Feifei Li, Mi Zhang, Geng Hong, Xiaoyu You, Min Yang,
- Abstract要約: 本稿では,変圧器を用いた拡散モデル(MMDiTなど)の安全な生成フレームワークであるSafeRoPEを提案する。
安全でないセマンティクスが頭レベルで解釈可能な低次元部分空間に集中していることを示し、安全クリティカルな頭部の有限セットが安全でない特徴抽出に責任を負うことを示した。
次に、良質な内容や画質を損なうことなく、安全でないセマンティクスを抑えるヘッドワイドなRoPE摂動を導入する。
- 参考スコア(独自算出の注目度): 20.61907377210064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Text-to-Image (T2I) models based on rectified-flow transformers (e.g., SD3, FLUX) achieve high generative fidelity but remain vulnerable to unsafe semantics, especially when triggered by multi-token interactions. Existing mitigation methods largely rely on fine-tuning or attention modulation for concept unlearning; however, their expensive computational overhead and design tailored to U-Net-based denoisers hinder direct adaptation to transformer-based diffusion models (e.g., MMDiT). In this paper, we conduct an in-depth analysis of the attention mechanism in MMDiT and find that unsafe semantics concentrate within interpretable, low-dimensional subspaces at head level, where a finite set of safety-critical heads is responsible for unsafe feature extraction. We further observe that perturbing the Rotary Positional Embedding (RoPE) applied to the query and key vectors can effectively modify some specific concepts in the generated images. Motivated by these insights, we propose SafeRoPE, a lightweight and fine-grained safe generation framework for MMDiT. Specifically, SafeRoPE first constructs head-wise unsafe subspaces by decomposing unsafe embeddings within safety-critical heads, and computes a Latent Risk Score (LRS) for each input vector via projection onto these subspaces. We then introduce head-wise RoPE perturbations that can suppress unsafe semantics without degrading benign content or image quality. SafeRoPE combines both head-wise LRS and RoPE perturbations to perform risk-specific head-wise rotation on query and key vector embeddings, enabling precise suppression of unsafe outputs while maintaining generation fidelity. Extensive experiments demonstrate that SafeRoPE achieves SOTA performance in balancing effective harmful content mitigation and utility preservation for safe generation of MMDiT. Codes are available at https://github.com/deng12yx/SafeRoPE.
- Abstract(参考訳): 最近のテキスト・トゥ・イメージ(T2I)モデルでは、整流トランスフォーマー(例えば、SD3、FLUX)をベースとして、高生成性を実現するが、特にマルチトークン相互作用によって引き起こされる場合、安全でないセマンティクスに弱いままである。
既存の緩和法は、未学習の概念の微調整や注意変調に大きく依存しているが、その高価な計算オーバーヘッドとU-Netベースのデノイザに適した設計は、トランスフォーマーベースの拡散モデル(MMDiTなど)への直接適応を妨げている。
本稿では,MMDiTにおける注意機構の詳細な解析を行い,安全でないセマンティクスが,安全クリティカルな頭部の有限セットが安全でない特徴抽出に責任を負う,解釈可能な低次元部分空間に集中していることを見出した。
さらに,ロタリー位置埋め込み(RoPE)をクエリに適用し,キーベクトルが生成した画像の特定の概念を効果的に修正できることが観察された。
これらの知見に触発されて,MMDiTの軽量かつきめ細かなセーフジェネレーションフレームワークであるSafeRoPEを提案する。
具体的には、SafeRoPEは、まず安全クリティカルなヘッド内に安全でない埋め込みを分解して、頭回りの安全でないサブスペースを構築し、これらのサブスペースに投影することで、各入力ベクトルに対する遅延リスクスコア(LRS)を計算する。
次に、良質な内容や画質を損なうことなく、安全でないセマンティクスを抑えるヘッドワイドなRoPE摂動を導入する。
SafeRoPEは、ヘッドワイドLSSとRoPEの摂動を組み合わせることで、クエリとキーベクターの埋め込みにおいて、リスク特異的なヘッドワイドローテーションを実行する。
大規模実験により, 安全なMMDiT生成のための有効な有害なコンテンツ緩和と実用性保全のバランスをとる上で, SafeRoPEがSOTA性能を実現することが実証された。
コードはhttps://github.com/deng12yx/SafeRoPEで公開されている。
関連論文リスト
- Safety-Guided Flow (SGF): A Unified Framework for Negative Guidance in Safe Generation [2.5489046505746704]
本稿では,画像生成タスクに対する最大平均離散性(MMD)ポテンシャルを用いた統一確率的フレームワークを提案する。
我々は制御バリア関数解析を利用して、負のガイダンスが強くなければならない臨界時間窓の存在を正当化する。
我々は,いくつかの現実的な安全な生成シナリオにおいて,統合されたフレームワークを評価し,否定的なガイダンスがデノナイジングプロセスの初期段階で適用されるべきであることを確認した。
論文 参考訳(メタデータ) (2026-03-02T07:31:29Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - LSSF: Safety Alignment for Large Language Models through Low-Rank Safety Subspace Fusion [16.434293020863592]
大きな言語モデル(LLM)の安全性メカニズムは、有害なコンテンツのないデータセットの微調整でさえも、その安全性能力を損なう可能性があるため、顕著な脆弱性を示す。
LSSF, underline-Rank underlineSafety underlineSubspace underlineFusion。
提案手法は,低ランクプロジェクション行列の構築により,LLMの安全性情報の低ランク特性を利用する。
論文 参考訳(メタデータ) (2026-01-19T03:59:12Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection [47.347413305965006]
大規模言語モデル(LLM)における安全性の整合性は、しばしば有害な要求を拒否するために内部表現を仲介する。
近年の研究では、これらの安全メカニズムは特定の表現方向を非難したり削除したりすることで回避可能であることが示されている。
そこで本研究では,リファレンシャル・メディア・サブスペースへのアクティベーションを永久に操り,モデルの安全アライメントを向上する手法であるランクワン・セーフティ・インジェクション(ROSI)を提案する。
論文 参考訳(メタデータ) (2025-08-28T13:22:33Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Superficial Safety Alignment Hypothesis [15.215130286922564]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択することを示唆する,表層安全アライメント仮説(SSAH)を提案する。
属性クリティカルなコンポーネントは,安全性クリティカルユニット(SCU),ユーティリティクリティカルユニット(UCU),コンプレックスユニット(CU),冗長ユニット(RU)の4種類に分類する。
実験結果から, 微調整中に特定の安全クリティカル成分を凍結することで, 新たな作業に適応しながら, 安全性特性を維持できることが判明した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。