論文の概要: Conditioned Activation Transport for T2I Safety Steering
- arxiv url: http://arxiv.org/abs/2603.03163v1
- Date: Tue, 03 Mar 2026 17:10:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.886956
- Title: Conditioned Activation Transport for T2I Safety Steering
- Title(参考訳): T2I型安全ステアリングの条件付活性化輸送
- Authors: Maciej Chrabąszcz, Aleksander Szymczyk, Jan Dubiński, Tomasz Trzciński, Franziska Boenisch, Adam Dziedzic,
- Abstract要約: Conditioned Activation Transport (CAT) は、幾何学に基づく条件付け機構と非線形輸送マップを利用するフレームワークである。
Z-Image と Infinity の2つの最先端アーキテクチャに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 52.88378793535683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their impressive capabilities, current Text-to-Image (T2I) models remain prone to generating unsafe and toxic content. While activation steering offers a promising inference-time intervention, we observe that linear activation steering frequently degrades image quality when applied to benign prompts. To address this trade-off, we first construct SafeSteerDataset, a contrastive dataset containing 2300 safe and unsafe prompt pairs with high cosine similarity. Leveraging this data, we propose Conditioned Activation Transport (CAT), a framework that employs a geometry-based conditioning mechanism and nonlinear transport maps. By conditioning transport maps to activate only within unsafe activation regions, we minimize interference with benign queries. We validate our approach on two state-of-the-art architectures: Z-Image and Infinity. Experiments demonstrate that CAT generalizes effectively across these backbones, significantly reducing Attack Success Rate while maintaining image fidelity compared to unsteered generations. Warning: This paper contains potentially offensive text and images.
- Abstract(参考訳): その印象的な機能にもかかわらず、現在のText-to-Image(T2I)モデルは、安全で有害なコンテンツを生成する傾向にある。
アクティベーションステアリングは有望な推論時間介入を提供するが、線形アクティベーションステアリングは良性プロンプトに適用した場合、画像品質を劣化させる。
このトレードオフに対処するため,まずSafeSteerDatasetを構築した。
このデータを活用することで、幾何学に基づく条件付け機構と非線形輸送マップを用いたフレームワークであるConditioned Activation Transport (CAT)を提案する。
安全でないアクティベーション領域内でのみ、トランスポートマップをアクティベートするよう条件付けすることで、良性クエリとの干渉を最小限に抑える。
Z-Image と Infinity の2つの最先端アーキテクチャに対するアプローチを検証する。
実験により、CATはこれらのバックボーンをまたいで効果的に一般化し、画像の忠実さを維持しつつ、画像の忠実さを維持しながらアタック成功率を著しく低下させることが示された。
警告: この論文には、潜在的に攻撃的なテキストと画像が含まれている。
関連論文リスト
- Inference-Only Prompt Projection for Safe Text-to-Image Generation with TV Guarantees [14.642850335491817]
テキスト・トゥ・イメージ(T2I)拡散モデルは高品質なオープン・エンド・シンセサイザーを可能にするが、実際の展開では、良質な即時アライメントを低下させることなく、安全でない世代を抑えるセーフガードが必要である。
基準条件分布が固定されると、安全でない世代における非自明な減少は、基準からテレビの偏差を必然的に引き起こす。
本稿では,高リスクプロンプトに選択的に介入する推論専用プロンプトプロジェクションフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-31T09:09:48Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - AdLift: Lifting Adversarial Perturbations to Safeguard 3D Gaussian Splatting Assets Against Instruction-Driven Editing [109.07334219188222]
本稿では,任意のビューや次元にまたがる命令駆動編集を防止するAdLiftと呼ばれる3DGSの最初の編集セーフガードを提案する。
我々は勾配トランケーションとイメージ・ツー・ガウスのフィッティングを交互に行い、異なる視点で一貫した対向的保護性能を得る。
論文 参考訳(メタデータ) (2025-12-08T07:41:23Z) - SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - Activation Steering Meets Preference Optimization: Defense Against Jailbreaks in Vision Language Models [25.261947712485107]
視覚言語モデル(VLM)は、理解と推論のために視覚情報とテキスト情報を統合するという印象的な能力を示しているが、敵の攻撃に対して非常に脆弱である。
モデルロバスト性を高めるために,アクティベーションレベルの介入とポリシレベルの最適化を組み合わせた新しい2段階防衛フレームワークであるtextitSequence-Level Preference Optimization for VLM (textitSPO-VLM)を提案する。
論文 参考訳(メタデータ) (2025-08-30T06:00:53Z) - PromptSafe: Gated Prompt Tuning for Safe Text-to-Image Generation [30.2092299298228]
テキスト・ツー・イメージ(T2I)モデルは、暴力的または明示的なイメージなど、安全でない作業用コンテンツ(NSFW)の生成に脆弱である。
本稿では,軽量でテキストのみを教師付きソフト埋め込みと,推論時間付きゲート制御ネットワークを組み合わせたゲートプロンプトチューニングフレームワークであるPromptSafeを提案する。
PromptSafeはSOTAの安全でない生成率(2.36%)を達成し,高い良性を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-02T09:09:40Z) - OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models [91.55634905861827]
Over-refusalは$textitover-refusal$として知られる現象で、T2Iモデルの実用性を減らす。
我々は,OVERT(textbfOVE$r-$textbfR$efusal evaluation on $textbfT$ext-to-image model)を提案する。
論文 参考訳(メタデータ) (2025-05-27T15:42:46Z) - Direct Unlearning Optimization for Robust and Safe Text-to-Image Models [29.866192834825572]
モデルが潜在的に有害なコンテンツを生成する能力を取り除くために、未学習の技術が開発されている。
これらの手法は敵の攻撃によって容易に回避され、生成した画像の安全性を確保するには信頼性が低い。
T2IモデルからNot Safe For Work(NSFW)コンテンツを除去するための新しいフレームワークであるDirect Unlearning Optimization (DUO)を提案する。
論文 参考訳(メタデータ) (2024-07-17T08:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。