論文の概要: FairImagen: Post-Processing for Bias Mitigation in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2510.21363v1
- Date: Fri, 24 Oct 2025 11:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.454374
- Title: FairImagen: Post-Processing for Bias Mitigation in Text-to-Image Models
- Title(参考訳): FairImagen:テキスト・ツー・イメージモデルにおけるバイアス軽減のための後処理
- Authors: Zihao Fu, Ryan Brown, Shun Shao, Kai Rawal, Eoin Delaney, Chris Russell,
- Abstract要約: FairImagenは、社会的偏見を緩和するための迅速な埋め込みで動作する、ポストホックな脱バイアスフレームワークである。
我々のフレームワークは、既存のポストホック手法より優れており、公平なテキスト・画像生成のためのシンプルでスケーラブルでモデルに依存しないソリューションを提供する。
- 参考スコア(独自算出の注目度): 10.857020427374506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models, such as Stable Diffusion, have demonstrated remarkable capabilities in generating high-quality and diverse images from natural language prompts. However, recent studies reveal that these models often replicate and amplify societal biases, particularly along demographic attributes like gender and race. In this paper, we introduce FairImagen (https://github.com/fuzihaofzh/FairImagen), a post-hoc debiasing framework that operates on prompt embeddings to mitigate such biases without retraining or modifying the underlying diffusion model. Our method integrates Fair Principal Component Analysis to project CLIP-based input embeddings into a subspace that minimizes group-specific information while preserving semantic content. We further enhance debiasing effectiveness through empirical noise injection and propose a unified cross-demographic projection method that enables simultaneous debiasing across multiple demographic attributes. Extensive experiments across gender, race, and intersectional settings demonstrate that FairImagen significantly improves fairness with a moderate trade-off in image quality and prompt fidelity. Our framework outperforms existing post-hoc methods and offers a simple, scalable, and model-agnostic solution for equitable text-to-image generation.
- Abstract(参考訳): 安定拡散のようなテキスト間拡散モデルは、自然言語のプロンプトから高品質で多様な画像を生成する際、顕著な能力を示した。
しかし、最近の研究では、これらのモデルはしばしば社会的バイアス、特に性別や人種などの人口統計学的特性を再現し増幅していることが明らかになっている。
本稿では,FairImagen(https://github.com/fuzihaofzh/FairImagen)について紹介する。
提案手法はFair principal Component Analysisを統合し,CLIPベースの入力埋め込みをサブスペースに投影し,セマンティックコンテンツを保存しながらグループ固有の情報を最小化する。
経験的ノイズ注入による脱バイアス効果をさらに高め,複数の属性を同時に脱バイアスできるクロスデミノグラフィー・プロジェクション法を提案する。
性別、人種、交差点設定にわたる大規模な実験により、FairImagenは画像品質の適度なトレードオフと迅速な忠実さによって、フェアネスを著しく改善することが示された。
我々のフレームワークは、既存のポストホック手法より優れており、公平なテキスト・画像生成のためのシンプルでスケーラブルでモデルに依存しないソリューションを提供する。
関連論文リスト
- Bias Begets Bias: The Impact of Biased Embeddings on Diffusion Models [0.0]
テキスト・トゥ・イメージ(TTI)システムは、社会的偏見に対する精査が増加している。
組込み空間をTTIモデルのバイアス源として検討する。
CLIPのような偏りのあるマルチモーダル埋め込みは、表現バランスの取れたTTIモデルに対して低いアライメントスコアをもたらす。
論文 参考訳(メタデータ) (2024-09-15T01:09:55Z) - MIST: Mitigating Intersectional Bias with Disentangled Cross-Attention Editing in Text-to-Image Diffusion Models [3.3454373538792552]
本稿では,拡散型テキスト・画像モデルにおける交叉バイアスに対処する手法を提案する。
提案手法では,事前学習した安定拡散モデルを用いて,参照画像の追加の必要性を排除し,未修正概念の本来の品質を維持する。
論文 参考訳(メタデータ) (2024-03-28T17:54:38Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Benchmarking the Fairness of Image Upsampling Methods [29.01986714656294]
本研究では,条件付き生成モデルの性能と公平性を示す指標のセットを開発する。
私たちは彼らの不均衡と多様性をベンチマークします。
この研究の一環として、データセットのサブセットは、一般的な顔の人種分布を再現する。
論文 参考訳(メタデータ) (2024-01-24T16:13:26Z) - Fair Text-to-Image Diffusion via Fair Mapping [32.02815667307623]
本稿では,事前学習したテキスト・画像拡散モデルを修正する,フレキシブルでモデルに依存しない,軽量なアプローチを提案する。
暗黙的言語バイアスの問題を効果的に解決することにより、より公平で多様な画像出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T15:02:01Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。