論文の概要: RespoDiff: Dual-Module Bottleneck Transformation for Responsible & Faithful T2I Generation
- arxiv url: http://arxiv.org/abs/2509.15257v1
- Date: Thu, 18 Sep 2025 07:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.824763
- Title: RespoDiff: Dual-Module Bottleneck Transformation for Responsible & Faithful T2I Generation
- Title(参考訳): RespoDiff: 応答性と忠実なT2I生成のためのデュアルモジュールボツネック変換
- Authors: Silpa Vadakkeeveetil Sreelatha, Sauradip Nag, Muhammad Awais, Serge Belongie, Anjan Dutta,
- Abstract要約: RespoDiffは、責任あるテキスト-画像生成のための新しいフレームワークである。
我々のアプローチは、様々なプロンプトにまたがって、責任と意味的コヒーレントな生成を20%改善する。
SDXLのような大型モデルにシームレスに統合され、公正性と安全性が向上する。
- 参考スコア(独自算出の注目度): 14.603824133970798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of diffusion models has enabled high-fidelity and semantically rich text-to-image generation; however, ensuring fairness and safety remains an open challenge. Existing methods typically improve fairness and safety at the expense of semantic fidelity and image quality. In this work, we propose RespoDiff, a novel framework for responsible text-to-image generation that incorporates a dual-module transformation on the intermediate bottleneck representations of diffusion models. Our approach introduces two distinct learnable modules: one focused on capturing and enforcing responsible concepts, such as fairness and safety, and the other dedicated to maintaining semantic alignment with neutral prompts. To facilitate the dual learning process, we introduce a novel score-matching objective that enables effective coordination between the modules. Our method outperforms state-of-the-art methods in responsible generation by ensuring semantic alignment while optimizing both objectives without compromising image fidelity. Our approach improves responsible and semantically coherent generation by 20% across diverse, unseen prompts. Moreover, it integrates seamlessly into large-scale models like SDXL, enhancing fairness and safety. Code will be released upon acceptance.
- Abstract(参考訳): 拡散モデルの急速な進歩により、高忠実でセマンティックにリッチなテキスト・ツー・イメージ生成が可能になったが、公正性と安全性の確保は未解決の課題である。
既存の手法は、通常、意味的忠実さと画像の品質を犠牲にして、公正さと安全性を向上させる。
本研究では、拡散モデルの中間ボトルネック表現に二重加群変換を組み込んだ、責任あるテキスト・画像生成のための新しいフレームワークであるRespoDiffを提案する。
このアプローチでは,公平性や安全性といった責任ある概念を捕捉し,強制すること,中立的なプロンプトとのセマンティックアライメントを維持すること,という2つの異なる学習可能なモジュールを導入している。
二重学習プロセスを容易にするために,モジュール間の効果的な協調を可能にする新しいスコアマッチング手法を提案する。
画像の忠実度を損なうことなく、両目的を最適化しながらセマンティックアライメントを確保することにより、責任生成における最先端の手法よりも優れる。
我々のアプローチは、多様で目に見えないプロンプトにまたがって、責任と意味的コヒーレントな生成を20%改善する。
さらに、SDXLのような大規模モデルにシームレスに統合され、公正性と安全性が向上する。
コードは受理時にリリースされる。
関連論文リスト
- Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning [28.15997901023315]
Recallは、未学習のIMGの堅牢性を損なうために設計された、新しい敵のフレームワークである。
逆効果、計算効率、意味的忠実性の点で、元のプロンプトで既存のベースラインを一貫して上回ります。
これらの結果は、現在の未学習メカニズムにおける重大な脆弱性を明らかにし、より堅牢なソリューションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-09T02:59:01Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - Sculpting Memory: Multi-Concept Forgetting in Diffusion Models via Dynamic Mask and Concept-Aware Optimization [20.783312940122297]
テキスト・ツー・イメージ(T2I)拡散モデルは,テキスト・プロンプトから高品質な画像を生成することに成功している。
しかし、膨大な量の知識を蓄積する能力は、選択的に忘れることが必要なシナリオに懸念を生じさせる。
マルチコンセプトを忘れるように設計された新しいアンラーニングフレームワークであるコンセプト・アウェア・ロスを併用したtextbfDynamic Maskを提案する。
論文 参考訳(メタデータ) (2025-04-12T01:38:58Z) - Customized Generation Reimagined: Fidelity and Editability Harmonized [30.92739649737791]
カスタマイズされた生成は、新しい概念を事前訓練されたテキスト・ツー・イメージモデルに組み込むことを目的としている。
カスタマイズされた生成は、概念の忠実さと編集性の間の本質的にのトレードオフに悩まされる。
論文 参考訳(メタデータ) (2024-12-06T07:54:34Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。