論文の概要: Fully Unsupervised Self-debiasing of Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.03749v1
- Date: Wed, 03 Dec 2025 12:46:42 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:02:16.076927
- Title: Fully Unsupervised Self-debiasing of Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルの完全教師なし自己劣化
- Authors: Korada Sri Vardhana, Shrikrishna Lolla, Soma Biswas,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは高解像度のフォトリアリスティック画像を生成する能力によって広く成功している。
本稿では,UNetをノイズ予測器として使用する拡散モデルに適用可能な,完全教師なしテスト時間脱バイアス法であるSelfDebiasを紹介する。
- 参考スコア(独自算出の注目度): 7.9240590529889205
- License:
- Abstract: Text-to-image (T2I) diffusion models have achieved widespread success due to their ability to generate high-resolution, photorealistic images. These models are trained on large-scale datasets, like LAION-5B, often scraped from the internet. However, since this data contains numerous biases, the models inherently learn and reproduce them, resulting in stereotypical outputs. We introduce SelfDebias, a fully unsupervised test-time debiasing method applicable to any diffusion model that uses a UNet as its noise predictor. SelfDebias identifies semantic clusters in an image encoder's embedding space and uses these clusters to guide the diffusion process during inference, minimizing the KL divergence between the output distribution and the uniform distribution. Unlike supervised approaches, SelfDebias does not require human-annotated datasets or external classifiers trained for each generated concept. Instead, it is designed to automatically identify semantic modes. Extensive experiments show that SelfDebias generalizes across prompts and diffusion model architectures, including both conditional and unconditional models. It not only effectively debiases images along key demographic dimensions while maintaining the visual fidelity of the generated images, but also more abstract concepts for which identifying biases is also challenging.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは高解像度のフォトリアリスティック画像を生成する能力によって広く成功している。
これらのモデルは、LAION-5Bのような大規模なデータセットでトレーニングされ、しばしばインターネットから取り除かれる。
しかし、このデータには多くのバイアスがあるため、モデルは本質的にそれらを学習し、再現し、ステレオタイプ的な出力をもたらす。
本稿では,UNetをノイズ予測器として使用する拡散モデルに適用可能な,完全教師なしテスト時間脱バイアス法であるSelfDebiasを紹介する。
SelfDebiasはイメージエンコーダの埋め込み空間内のセマンティッククラスタを特定し、これらのクラスタを使用して推論中の拡散プロセスをガイドし、出力分布と均一分布の間のKLのばらつきを最小限にする。
教師付きアプローチとは異なり、SelfDebiasでは、生成された概念ごとにトレーニングされた人間アノテーション付きデータセットや外部分類器を必要としない。
代わりに、セマンティックモードを自動的に識別するように設計されている。
大規模な実験により、SelfDebiasは条件付きモデルと非条件付きモデルの両方を含む、プロンプトと拡散モデルアーキテクチャをまたいだ一般化が示されている。
生成した画像の視覚的忠実さを維持しながら、重要な人口統計次元に沿って画像を効果的に除去するだけでなく、バイアスを識別するより抽象的な概念も困難である。
関連論文リスト
- InvDiff: Invariant Guidance for Bias Mitigation in Diffusion Models [28.51460282167433]
拡散モデルは、非常にデータ駆動であり、現実世界のデータに存在する不均衡とバイアスを継承する傾向がある。
拡散誘導のための不変意味情報学習を目的としたフレームワークInvDiffを提案する。
InvDiffは、画像生成の品質を維持しながら、バイアスを効果的に低減する。
論文 参考訳(メタデータ) (2024-12-11T15:47:11Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Unbiased Image Synthesis via Manifold Guidance in Diffusion Models [9.531220208352252]
拡散モデルは、しばしば必然的に特定のデータ属性を好ましくし、生成された画像の多様性を損なう。
我々は,DDPMにおけるバイアス問題を緩和する最初の教師なし手法であるManifold Smpling Guidanceというプラグアンドプレイ手法を提案する。
論文 参考訳(メタデータ) (2023-07-17T02:03:17Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。