論文の概要: What Concepts Lie Within? Detecting and Suppressing Risky Content in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2605.10180v1
- Date: Mon, 11 May 2026 08:31:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.646765
- Title: What Concepts Lie Within? Detecting and Suppressing Risky Content in Diffusion Transformers
- Title(参考訳): 拡散変圧器におけるリスク内容の検出と抑制
- Authors: Chenyu Zhang, Lanjun Wang, Yueyang Cheng, Ruidong Chen, Wenhui Li, An-an Liu,
- Abstract要約: AHV-D&Sは、DiTにおける画像生成のためのトレーニング不要な推論時セーフガードである。
AHV-D&Sは、視覚的品質を維持しつつ、性的、著作権のあるスタイル、および様々な有害なコンテンツを効果的に抑制することを示す。
- 参考スコア(独自算出の注目度): 41.55824439218019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of text-to-image (T2I) models has increasingly raised concerns regarding the generation of risky content, such as sexual, violent, and copyright-protected images, highlighting the need for effective safeguards within the models themselves. Although existing methods have been proposed to eliminate risky concepts from T2I models, they are primarily developed for earlier U-Net architectures, leaving the state-of-the-art Diffusion-Transformer-based T2I models inadequately protected. This gap stems from a fundamental architectural shift: Diffusion Transformers (DiTs) entangle semantic injection and visual synthesis via joint attention, which makes it difficult to isolate and erase risky content within the generation. To bridge this gap, we investigate how semantic concepts are represented in DiTs and discover that attention heads exhibit concept-specific sensitivity. This property enables both the detection and suppression of risky content. Building on this discovery, we propose AHV-D\&S, a training-free inference-time safeguard for image generation in DiTs. Specifically, AHV-D\&S quantifies each textual token's sensitivity across all attention heads as an Attention Head Vector (AHV), which serves as a discriminative signature for detecting risky generation tendencies. In the inference stage, we propose a momentum-based strategy to dynamically track token-wise AHVs across denoising steps, and a sensitivity-guided adaptive suppression strategy that suppresses the attention weights of identified risky tokens based on head-specific risk scores. Extensive experiments demonstrate that AHV-D\&S effectively suppresses sexual, copyrighted-style, and various harmful content while preserving visual quality, and further exhibits strong robustness against adversarial prompts and transferability across different DiT-based T2I models.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルの台頭は、性的、暴力的、著作権に保護された画像などの危険コンテンツの発生に対する懸念を高め、モデル自体の効果的な保護の必要性を強調している。
T2Iモデルからリスクの高い概念を排除するために既存の手法が提案されているが、それらは主に初期のU-Netアーキテクチャ向けに開発され、最先端のDiffusion-TransformerベースのT2Iモデルは適切に保護されていない。
拡散変換器(DiT) 絡み合ったセマンティックインジェクションと共同注意による視覚合成。
このギャップを埋めるために, 意味概念がDiTでどのように表現されるかを調べ, 注意ヘッドが概念固有の感度を示すことを明らかにする。
この性質により、リスクのあるコンテンツの検出と抑制が可能である。
この発見に基づいて,DiTにおける画像生成のためのトレーニング不要な推論時セーフガードであるAHV-D\&Sを提案する。
具体的には、AHV-D\&Sは、各テキストトークンの感度をアテンションヘッドベクトル(AHV)として、すべてのアテンションヘッドにわたって定量化し、リスク発生傾向を検出するための識別的シグネチャとして機能する。
推論段階では,トークン単位のAHVを動的に追跡するモーメントベースの戦略と,頭部固有のリスクスコアに基づいて識別されたリスクトークンの注意重みを抑える感度誘導適応型抑制戦略を提案する。
広汎な実験により、AHV-D\&Sは視覚的品質を維持しながら、性的、著作権のあるスタイル、および様々な有害なコンテンツを効果的に抑制し、さらに異なるDiTベースのT2Iモデル間の敵対的プロンプトや転送可能性に対して強い堅牢性を示すことが示されている。
関連論文リスト
- TINA: Text-Free Inversion Attack for Unlearned Text-to-Image Diffusion Models [92.56562999211809]
テキスト中心のパラダイムは、消去とテキスト・ツー・イメージマッピングの厳密さを同一視し、望ましくない概念に関する基礎となる視覚的知識が今も続いていることを無視する。
我々は、この視覚のみのプローブをNull-text条件下で動作させることで、新しいテキストフリーのインバージョンアタックであるTinaを紹介する。
我々の実験では、Tinaは最先端の未学習モデルから消去された概念を再生することを示した。
論文 参考訳(メタデータ) (2026-03-18T15:25:03Z) - HERS: Hidden-Pattern Expert Learning for Risk-Specific Vehicle Damage Adaptation in Diffusion Models [0.0]
テキスト・トゥ・イメージ(T2I)拡散モデルの最近の進歩により、車両の損傷の現実的な合成が可能になった。
クラッシュのような画像を生成する能力は、真のデータと合成データの境界に挑戦する。
本研究では,拡散損傷画像の忠実度,可制御性,ドメインアライメントを改善するためのフレームワークHERSを提案する。
論文 参考訳(メタデータ) (2026-01-29T10:30:07Z) - NDM: A Noise-driven Detection and Mitigation Framework against Implicit Sexual Intentions in Text-to-Image Generation [41.058425895887616]
テキスト・ツー・イメージ(T2I)モデルは不適切なコンテンツを生成するのに弱い。
暗黙の性的プロンプトは、しばしば良心的な言葉に変装して、予想外の性的内容を引き起こす可能性がある。
我々は,最初のノイズ駆動型検出・緩和フレームワークであるNDMを提案する。
論文 参考訳(メタデータ) (2025-10-17T15:37:02Z) - TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models [53.937498564603054]
近年のテキスト・画像拡散モデルの進歩により、フォトリアリスティックな画像生成が可能になったが、NSFW画像のような悪意のあるコンテンツを生成するリスクもある。
リスクを軽減するため,概念消去手法が研究され,モデルが特定の概念を学習しやすくする。
本稿では,2段階のコンセプト消去戦略を用いて,信頼性の高い消去と知識保存の効果的なトレードオフを実現するTRCEを提案する。
論文 参考訳(メタデータ) (2025-03-10T14:37:53Z) - T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation [39.45602029655288]
T2ISafetyは、毒性、公正性、バイアスという3つの主要な領域にわたるT2Iモデルを評価する安全ベンチマークである。
我々は68Kの注釈付き画像を用いた大規模T2Iデータセットを構築し、臨界リスクを検出するための評価器を訓練する。
我々は、T2ISafety上での12の顕著な拡散モデルを評価し、人種的公正性に関する永続的な問題、有害なコンテンツを生成する傾向、モデル間でのプライバシー保護の顕著なばらつきなど、いくつかの懸念を明らかにした。
論文 参考訳(メタデータ) (2025-01-22T03:29:43Z) - SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。
安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。
テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文 参考訳(メタデータ) (2024-10-16T17:32:23Z) - StealthDiffusion: Towards Evading Diffusion Forensic Detection through Diffusion Model [62.25424831998405]
StealthDiffusionは、AI生成した画像を高品質で受け入れがたい敵の例に修正するフレームワークである。
ホワイトボックスとブラックボックスの設定の両方で有効であり、AI生成した画像を高品質な敵の偽造に変換する。
論文 参考訳(メタデータ) (2024-08-11T01:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。