論文の概要: When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance
- arxiv url: http://arxiv.org/abs/2602.20880v2
- Date: Wed, 25 Feb 2026 18:24:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 16:16:21.293604
- Title: When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance
- Title(参考訳): 安全の衝突: 適応的安全誘導によるテキストと画像の拡散におけるマルチカテゴリの有害な衝突を解決する
- Authors: Yongli Xiang, Ziming Hong, Zhaoqing Wang, Xiangyu Zhao, Bo Han, Tongliang Liu,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは高品質な画像を生成する上で大きな進歩を見せている。
本研究では,適応型安全誘導(CASG)を動的に識別・適用する学習自由フレームワークとして,適応型安全誘導(CASG)を提案する。
T2Iの安全性ベンチマークの実験では、CASGの最先端性能が実証され、既存の方法と比較して有害率が最大15.4%低下した。
- 参考スコア(独自算出の注目度): 79.1968671824977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image (T2I) diffusion models have demonstrated significant advancements in generating high-quality images, while raising potential safety concerns regarding harmful content generation. Safety-guidance-based methods have been proposed to mitigate harmful outputs by steering generation away from harmful zones, where the zones are averaged across multiple harmful categories based on predefined keywords. However, these approaches fail to capture the complex interplay among different harm categories, leading to "harmful conflicts" where mitigating one type of harm may inadvertently amplify another, thus increasing overall harmful rate. To address this issue, we propose Conflict-aware Adaptive Safety Guidance (CASG), a training-free framework that dynamically identifies and applies the category-aligned safety direction during generation. CASG is composed of two components: (i) Conflict-aware Category Identification (CaCI), which identifies the harmful category most aligned with the model's evolving generative state, and (ii) Conflict-resolving Guidance Application (CrGA), which applies safety steering solely along the identified category to avoid multi-category interference. CASG can be applied to both latent-space and text-space safeguards. Experiments on T2I safety benchmarks demonstrate CASG's state-of-the-art performance, reducing the harmful rate by up to 15.4% compared to existing methods.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成する上で大きな進歩が見られ、有害なコンテンツ生成に関する潜在的な安全性の懸念が高まっている。
安全誘導に基づく手法は, 有害ゾーンから発生した有害な出力を, 予め定義されたキーワードに基づいて, 複数の有害カテゴリで平均化することにより, 有害な出力を軽減できる。
しかし、これらのアプローチは、異なる害カテゴリー間の複雑な相互作用を捉えることができず、ある種類の害を緩和することで、必然的に他の害を増幅し、全体的な有害率を増大させる「有害な衝突」につながる。
この問題に対処するため、我々は、世代毎にカテゴリに整合した安全方向を動的に識別し、適用する訓練不要のフレームワークである、紛争対応型適応安全誘導(CASG)を提案する。
CASGは2つのコンポーネントから構成される。
一 モデルが進化する生成状態に最も適合する有害なカテゴリーを識別する紛争対応カテゴリー識別(CaCI)
(二)紛争解決誘導アプリケーション(CrGA)は、特定カテゴリーにのみ安全ステアリングを適用し、多カテゴリー干渉を避ける。
CASGは、潜在空間とテキスト空間の保護の両方に適用できる。
T2Iの安全性ベンチマークの実験では、CASGの最先端性能が実証され、既存の方法と比較して有害率が最大15.4%低下した。
関連論文リスト
- HERS: Hidden-Pattern Expert Learning for Risk-Specific Vehicle Damage Adaptation in Diffusion Models [0.0]
テキスト・トゥ・イメージ(T2I)拡散モデルの最近の進歩により、車両の損傷の現実的な合成が可能になった。
クラッシュのような画像を生成する能力は、真のデータと合成データの境界に挑戦する。
本研究では,拡散損傷画像の忠実度,可制御性,ドメインアライメントを改善するためのフレームワークHERSを提案する。
論文 参考訳(メタデータ) (2026-01-29T10:30:07Z) - SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment [43.86865924673546]
軽量なゲートウェイ分類器を介して防御資源を割り当てる適応型フレームワークであるSafeThinkerを提案する。
実験によると、SafeThinkerは、堅牢性を損なうことなく、さまざまなジェイルブレイク戦略における攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2026-01-23T07:12:53Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - Self-Guided Defense: Adaptive Safety Alignment for Reasoning Models via Synthesized Guidelines [31.031589383127677]
本稿では,Synthesized Guideline-based Adaptive Safety Alignment (SGASA)フレームワークを紹介する。
モデル生成安全ガイドラインを内包し、敵のプロンプトに対する堅牢性を強化するモデルの能力を強化する。
複数のデータセットにわたる実験により、SGASAはモデルの安全性を大幅に改善し、適応性とスケーラブルな効率性を検証する。
論文 参考訳(メタデータ) (2025-11-26T09:44:32Z) - SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization [22.225141381422873]
有害なコンテンツを生成するテキストと画像の拡散モデルに対する懸念が高まっている。
概念アンラーニングや安全ガイダンスのようなポストホックモデルの介入技術は、これらのリスクを軽減するために開発されている。
本稿では,自己診断と詳細な自己制御を行うための安全生成フレームワークであるDector-and-Guide(DAG)を提案する。
DAGは最先端の安全な生成性能を実現し、有害性軽減とテキスト追跡性能を現実のプロンプトでバランスさせる。
論文 参考訳(メタデータ) (2025-03-19T13:37:52Z) - SafeCFG: Controlling Harmful Features with Dynamic Safe Guidance for Safe Generation [125.0706666755989]
拡散モデル (DM) はテキストから画像へのタスクにおいて例外的な性能を示した。
CFGを介して画像生成プロセスを悪意的に導くことにより、より有害な画像を生成するために使用できる。
動的安全誘導を用いて有害な特徴を適応的に制御するSafeCFGを提案する。
論文 参考訳(メタデータ) (2024-12-20T16:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。