論文の概要: Fully Unsupervised Self-debiasing of Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.03749v1
- Date: Wed, 03 Dec 2025 12:46:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-04 20:02:55.292684
- Title: Fully Unsupervised Self-debiasing of Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルの完全教師なし自己劣化
- Authors: Korada Sri Vardhana, Shrikrishna Lolla, Soma Biswas,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは高解像度のフォトリアリスティック画像を生成する能力によって広く成功している。
本稿では,UNetをノイズ予測器として使用する拡散モデルに適用可能な,完全教師なしテスト時間脱バイアス法であるSelfDebiasを紹介する。
- 参考スコア(独自算出の注目度): 7.9240590529889205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) diffusion models have achieved widespread success due to their ability to generate high-resolution, photorealistic images. These models are trained on large-scale datasets, like LAION-5B, often scraped from the internet. However, since this data contains numerous biases, the models inherently learn and reproduce them, resulting in stereotypical outputs. We introduce SelfDebias, a fully unsupervised test-time debiasing method applicable to any diffusion model that uses a UNet as its noise predictor. SelfDebias identifies semantic clusters in an image encoder's embedding space and uses these clusters to guide the diffusion process during inference, minimizing the KL divergence between the output distribution and the uniform distribution. Unlike supervised approaches, SelfDebias does not require human-annotated datasets or external classifiers trained for each generated concept. Instead, it is designed to automatically identify semantic modes. Extensive experiments show that SelfDebias generalizes across prompts and diffusion model architectures, including both conditional and unconditional models. It not only effectively debiases images along key demographic dimensions while maintaining the visual fidelity of the generated images, but also more abstract concepts for which identifying biases is also challenging.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは高解像度のフォトリアリスティック画像を生成する能力によって広く成功している。
これらのモデルは、LAION-5Bのような大規模なデータセットでトレーニングされ、しばしばインターネットから取り除かれる。
しかし、このデータには多くのバイアスがあるため、モデルは本質的にそれらを学習し、再現し、ステレオタイプ的な出力をもたらす。
本稿では,UNetをノイズ予測器として使用する拡散モデルに適用可能な,完全教師なしテスト時間脱バイアス法であるSelfDebiasを紹介する。
SelfDebiasはイメージエンコーダの埋め込み空間内のセマンティッククラスタを特定し、これらのクラスタを使用して推論中の拡散プロセスをガイドし、出力分布と均一分布の間のKLのばらつきを最小限にする。
教師付きアプローチとは異なり、SelfDebiasでは、生成された概念ごとにトレーニングされた人間アノテーション付きデータセットや外部分類器を必要としない。
代わりに、セマンティックモードを自動的に識別するように設計されている。
大規模な実験により、SelfDebiasは条件付きモデルと非条件付きモデルの両方を含む、プロンプトと拡散モデルアーキテクチャをまたいだ一般化が示されている。
生成した画像の視覚的忠実さを維持しながら、重要な人口統計次元に沿って画像を効果的に除去するだけでなく、バイアスを識別するより抽象的な概念も困難である。
関連論文リスト
- Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - InvDiff: Invariant Guidance for Bias Mitigation in Diffusion Models [28.51460282167433]
拡散モデルは、非常にデータ駆動であり、現実世界のデータに存在する不均衡とバイアスを継承する傾向がある。
拡散誘導のための不変意味情報学習を目的としたフレームワークInvDiffを提案する。
InvDiffは、画像生成の品質を維持しながら、バイアスを効果的に低減する。
論文 参考訳(メタデータ) (2024-12-11T15:47:11Z) - Debiasing Classifiers by Amplifying Bias with Latent Diffusion and Large Language Models [9.801159950963306]
DiffuBiasはテキスト・画像生成のための新しいパイプラインであり、バイアス・コンフリクト・サンプルを生成することで分類器の堅牢性を高める。
DrouBiasは、安定拡散モデルを活用する最初のアプローチである。
総合実験により,DiffuBiasがベンチマークデータセット上で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-11-25T04:11:16Z) - Bias Begets Bias: The Impact of Biased Embeddings on Diffusion Models [0.0]
テキスト・トゥ・イメージ(TTI)システムは、社会的偏見に対する精査が増加している。
組込み空間をTTIモデルのバイアス源として検討する。
CLIPのような偏りのあるマルチモーダル埋め込みは、表現バランスの取れたTTIモデルに対して低いアライメントスコアをもたらす。
論文 参考訳(メタデータ) (2024-09-15T01:09:55Z) - VersusDebias: Universal Zero-Shot Debiasing for Text-to-Image Models via SLM-Based Prompt Engineering and Generative Adversary [8.24274551090375]
本稿では,任意のテキスト・トゥ・イメージ(T2I)モデルにおけるバイアスに対する新奇で普遍的なデバイアスフレームワークであるVersusDebiasを紹介する。
自己適応モジュールは、プロセス後の幻覚と複数の属性を同時にデバイアスする特別な属性配列を生成する。
ゼロショットと少数ショットの両方のシナリオでは、VersusDebiasは既存のメソッドよりも優れており、例外的なユーティリティを示している。
論文 参考訳(メタデータ) (2024-07-28T16:24:07Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Unbiased Image Synthesis via Manifold Guidance in Diffusion Models [9.531220208352252]
拡散モデルは、しばしば必然的に特定のデータ属性を好ましくし、生成された画像の多様性を損なう。
我々は,DDPMにおけるバイアス問題を緩和する最初の教師なし手法であるManifold Smpling Guidanceというプラグアンドプレイ手法を提案する。
論文 参考訳(メタデータ) (2023-07-17T02:03:17Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。