論文の概要: Model-Agnostic Gender Bias Control for Text-to-Image Generation via Sparse Autoencoder
- arxiv url: http://arxiv.org/abs/2507.20973v1
- Date: Mon, 28 Jul 2025 16:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.205815
- Title: Model-Agnostic Gender Bias Control for Text-to-Image Generation via Sparse Autoencoder
- Title(参考訳): スパースオートエンコーダによるテキスト・画像生成のためのモデル非依存性バイアス制御
- Authors: Chao Wu, Zhenyi Wang, Kangxian Xie, Naresh Kumar Devulapally, Vishnu Suresh Lokhande, Mingchen Gao,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルでは、特に専門職と性的な対象のステレオタイプ的関連を生じることにより、性別バイアスが生じることが多い。
本稿では,T2I生成におけるそのようなバイアスを軽減するためのモデルに依存しないフレームワークであるSAE Debiasを提案する。
我々の知る限りでは、これはT2Iモデル内の性別バイアスを特定し、介入するためにスパースオートエンコーダを適用する最初の試みである。
- 参考スコア(独自算出の注目度): 14.164976259534143
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) diffusion models often exhibit gender bias, particularly by generating stereotypical associations between professions and gendered subjects. This paper presents SAE Debias, a lightweight and model-agnostic framework for mitigating such bias in T2I generation. Unlike prior approaches that rely on CLIP-based filtering or prompt engineering, which often require model-specific adjustments and offer limited control, SAE Debias operates directly within the feature space without retraining or architectural modifications. By leveraging a k-sparse autoencoder pre-trained on a gender bias dataset, the method identifies gender-relevant directions within the sparse latent space, capturing professional stereotypes. Specifically, a biased direction per profession is constructed from sparse latents and suppressed during inference to steer generations toward more gender-balanced outputs. Trained only once, the sparse autoencoder provides a reusable debiasing direction, offering effective control and interpretable insight into biased subspaces. Extensive evaluations across multiple T2I models, including Stable Diffusion 1.4, 1.5, 2.1, and SDXL, demonstrate that SAE Debias substantially reduces gender bias while preserving generation quality. To the best of our knowledge, this is the first work to apply sparse autoencoders for identifying and intervening in gender bias within T2I models. These findings contribute toward building socially responsible generative AI, providing an interpretable and model-agnostic tool to support fairness in text-to-image generation.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルでは、特に専門職と性的な対象のステレオタイプ的関連を生じることにより、性別バイアスが生じることが多い。
本稿では,T2I生成におけるそのようなバイアスを軽減する軽量でモデルに依存しないフレームワークであるSAE Debiasを提案する。
CLIPベースのフィルタリングやプロンプトエンジニアリングに依存する従来のアプローチとは異なり、SAE Debiasはトレーニングやアーキテクチャの変更なしに、機能空間内で直接動作する。
性別バイアスデータセットに事前トレーニングされたk-スパースオートエンコーダを利用することで、スパース潜在空間内の性別関連方向を特定し、プロのステレオタイプをキャプチャする。
具体的には、職業ごとの偏りのある方向は、まばらな潜伏者から構築され、より男女バランスの取れたアウトプットに対する世代推定において抑制される。
一度だけ訓練されたスパースオートエンコーダは、有効制御とバイアス付き部分空間の解釈可能な洞察を提供する、再利用可能なデバイアスの方向を提供する。
安定拡散1.4、1.5、2.1、SDXLを含む複数のT2Iモデルにわたる広範囲な評価は、SAE Debiasが生成品質を維持しながら性バイアスを大幅に減少させることを示した。
我々の知る限りでは、これはT2Iモデル内の性別バイアスを特定し、介入するためにスパースオートエンコーダを適用する最初の試みである。
これらの知見は、社会的に責任を負う生成AIの構築に寄与し、テキスト・画像生成における公平性をサポートするための解釈可能でモデルに依存しないツールを提供する。
関連論文リスト
- Do Existing Testing Tools Really Uncover Gender Bias in Text-to-Image Models? [11.101062595569854]
これまでの研究で、テキスト・トゥ・イメージ(T2I)モデルは、中立的なテキスト・プロンプトが提供されると、性別のステレオタイプを永続的に、あるいは増幅することができることが示されている。
様々な検出器を包括的に比較し、それらによって検出された性別バイアスが実際の状況からどのように逸脱するかを理解する既存の研究は存在しない。
本研究では、手動ラベル付きデータセットを用いて、過去の性差検出器を検証し、T2Iモデルの実際のバイアスから、様々な検出器によって識別されたバイアスがどのように逸脱するかを比較することで、このギャップに対処する。
論文 参考訳(メタデータ) (2025-01-27T04:47:19Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [91.86718720024825]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - MoESD: Mixture of Experts Stable Diffusion to Mitigate Gender Bias [23.10522891268232]
テキスト・ツー・イメージ・モデルにおいて、ジェンダーバイアスを軽減するためのMixture-of-Expertsアプローチを導入する。
画像品質を維持しながら, 性別偏見の軽減に成功していることを示す。
論文 参考訳(メタデータ) (2024-06-25T14:59:31Z) - The Male CEO and the Female Assistant: Evaluation and Mitigation of Gender Biases in Text-To-Image Generation of Dual Subjects [58.27353205269664]
本稿では,Paired Stereotype Test (PST) フレームワークを提案する。
PSTクエリT2Iモデルは、男性ステレオタイプと女性ステレオタイプに割り当てられた2つの個人を描写する。
PSTを用いて、ジェンダーバイアスの2つの側面、つまり、ジェンダーの職業におけるよく知られたバイアスと、組織力におけるバイアスという新しい側面を評価する。
論文 参考訳(メタデータ) (2024-02-16T21:32:27Z) - Mitigating Gender Bias in Captioning Systems [56.25457065032423]
ほとんどのキャプションモデルは性別バイアスを学習し、特に女性にとって高い性別予測エラーにつながる。
本稿では, 視覚的注意を自己指導し, 正しい性的な視覚的証拠を捉えるためのガイド付き注意画像キャプチャーモデル(GAIC)を提案する。
論文 参考訳(メタデータ) (2020-06-15T12:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。