論文の概要: AutoDebias: Automated Framework for Debiasing Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2508.00445v1
- Date: Fri, 01 Aug 2025 09:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.808627
- Title: AutoDebias: Automated Framework for Debiasing Text-to-Image Models
- Title(参考訳): AutoDebias: テキストから画像へのモデルのデバイアスのためのフレームワーク
- Authors: Hongyi Cai, Mohammad Mahdinur Rahman, Mingkang Dong, Jie Li, Muxin Pu, Zhili Fang, Yinan Peng, Hanjun Luo, Yang Liu,
- Abstract要約: テキスト・ツー・イメージ(T2I)モデルはテキスト・プロンプトから高品質な画像を生成するが、しばしば意図しない社会的偏見を示す。
本稿では,T2Iモデルにおける有害バイアスを自動的に識別・緩和するフレームワークであるAutoDebiasを提案する。
このフレームワークを25以上のバイアスシナリオをカバーするベンチマークで評価する。
- 参考スコア(独自算出の注目度): 6.581606189725493
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text-to-Image (T2I) models generate high-quality images from text prompts but often exhibit unintended social biases, such as gender or racial stereotypes, even when these attributes are not mentioned. Existing debiasing methods work well for simple or well-known cases but struggle with subtle or overlapping biases. We propose AutoDebias, a framework that automatically identifies and mitigates harmful biases in T2I models without prior knowledge of specific bias types. Specifically, AutoDebias leverages vision-language models to detect biased visual patterns and constructs fairness guides by generating inclusive alternative prompts that reflect balanced representations. These guides drive a CLIP-guided training process that promotes fairer outputs while preserving the original model's image quality and diversity. Unlike existing methods, AutoDebias effectively addresses both subtle stereotypes and multiple interacting biases. We evaluate the framework on a benchmark covering over 25 bias scenarios, including challenging cases where multiple biases occur simultaneously. AutoDebias detects harmful patterns with 91.6% accuracy and reduces biased outputs from 90% to negligible levels, while preserving the visual fidelity of the original model.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルはテキスト・プロンプトから高品質な画像を生成するが、性別や人種的ステレオタイプのような意図しない社会的偏見がしばしば現れる。
既存のデバイアス法は、単純なケースやよく知られたケースではうまく機能するが、微妙なバイアスや重なり合うバイアスに悩まされる。
本稿では,T2Iモデルにおける有害バイアスを自動的に識別・緩和するフレームワークであるAutoDebiasを提案する。
具体的には、AutoDebiasは視覚言語モデルを利用してバイアスのある視覚パターンを検出し、バランスの取れた表現を反映した包括的代替プロンプトを生成することによって公正なガイドを構築する。
これらのガイドは、オリジナルのモデルの画質と多様性を保ちながら、より公平な出力を促進するCLIP誘導のトレーニングプロセスを駆動する。
既存の方法とは異なり、AutoDebiasは微妙なステレオタイプと複数の相互作用バイアスの両方に効果的に対処する。
このフレームワークを25以上のバイアスシナリオをカバーするベンチマークで評価する。
AutoDebiasは91.6%の精度で有害なパターンを検出し、元のモデルの視覚的忠実さを維持しながら、バイアス出力を90%から無視できるレベルまで低減する。
関連論文リスト
- Model-Agnostic Gender Bias Control for Text-to-Image Generation via Sparse Autoencoder [14.164976259534143]
テキスト・ツー・イメージ(T2I)拡散モデルでは、特に専門職と性的な対象のステレオタイプ的関連を生じることにより、性別バイアスが生じることが多い。
本稿では,T2I生成におけるそのようなバイアスを軽減するためのモデルに依存しないフレームワークであるSAE Debiasを提案する。
我々の知る限りでは、これはT2Iモデル内の性別バイアスを特定し、介入するためにスパースオートエンコーダを適用する最初の試みである。
論文 参考訳(メタデータ) (2025-07-28T16:36:13Z) - From Lists to Emojis: How Format Bias Affects Model Alignment [67.08430328350327]
人的フィードバックからの強化学習における形式バイアスについて検討する。
人間の評価者を含む多くの広く使われている嗜好モデルは、特定のフォーマットパターンに対して強いバイアスを示す。
バイアスデータが少ないと、報酬モデルにかなりのバイアスを注入できることを示す。
論文 参考訳(メタデータ) (2024-09-18T05:13:18Z) - GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models [75.04426753720553]
開集合におけるバイアスを特定し,定量化し,説明するための枠組みを提案する。
このパイプラインはLarge Language Model (LLM)を活用して、一連のキャプションから始まるバイアスを提案する。
このフレームワークには、OpenBiasとGradBiasの2つのバリエーションがあります。
論文 参考訳(メタデータ) (2024-08-29T16:51:07Z) - VersusDebias: Universal Zero-Shot Debiasing for Text-to-Image Models via SLM-Based Prompt Engineering and Generative Adversary [8.24274551090375]
本稿では,任意のテキスト・トゥ・イメージ(T2I)モデルにおけるバイアスに対する新奇で普遍的なデバイアスフレームワークであるVersusDebiasを紹介する。
自己適応モジュールは、プロセス後の幻覚と複数の属性を同時にデバイアスする特別な属性配列を生成する。
ゼロショットと少数ショットの両方のシナリオでは、VersusDebiasは既存のメソッドよりも優れており、例外的なユーティリティを示している。
論文 参考訳(メタデータ) (2024-07-28T16:24:07Z) - Quantifying Bias in Text-to-Image Generative Models [49.60774626839712]
テキスト・トゥ・イメージ(T2I)モデルにおけるバイアスは不公平な社会的表現を伝播させ、アイデアを積極的にマーケティングしたり、議論の的となっている議題を推進したりするのに用いられる。
既存のT2Iモデルバイアス評価手法は、社会的バイアスのみに焦点を当てる。
本稿では,T2I生成モデルにおける一般バイアスの定量化手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T14:26:54Z) - TIBET: Identifying and Evaluating Biases in Text-to-Image Generative Models [22.076898042211305]
我々は、任意のTTIモデルと任意のプロンプトに対して、幅広いバイアススペクトルを研究、定量化するための一般的なアプローチを提案する。
我々の手法は、与えられたプロンプトに関連する可能性のある潜在的なバイアスを自動的に識別し、それらのバイアスを測定する。
本研究では,本手法が意味論的概念を通じて複雑な多次元バイアスを説明できることを示す。
論文 参考訳(メタデータ) (2023-12-03T02:31:37Z) - Balancing the Picture: Debiasing Vision-Language Datasets with Synthetic
Contrast Sets [52.77024349608834]
視覚言語モデルは、インターネットから未計算の画像テキストペアの事前トレーニング中に学んだ社会的バイアスを永続し、増幅することができる。
COCO Captionsは、背景コンテキストとその場にいる人々の性別間のバイアスを評価するために最も一般的に使用されるデータセットである。
本研究では,COCOデータセットを男女バランスの取れたコントラストセットで拡張する新しいデータセットデバイアスパイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:59:18Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Discovering and Mitigating Visual Biases through Keyword Explanation [66.71792624377069]
視覚バイアスをキーワードとして解釈するBias-to-Text(B2T)フレームワークを提案する。
B2Tは、CelebAの性別バイアス、ウォーターバードの背景バイアス、ImageNet-R/Cの分布シフトなど、既知のバイアスを特定することができる。
B2Tは、Dollar StreetやImageNetのような大きなデータセットで、新しいバイアスを明らかにする。
論文 参考訳(メタデータ) (2023-01-26T13:58:46Z) - Learning Debiased Models with Dynamic Gradient Alignment and
Bias-conflicting Sample Mining [39.00256193731365]
ディープニューラルネットワークは、堅牢性、一般化、公正性をモデル化するのに有害なデータセットバイアスに悩まされている。
難解な未知のバイアスと戦うための2段階のデバイアス方式を提案する。
論文 参考訳(メタデータ) (2021-11-25T14:50:10Z) - BiaSwap: Removing dataset bias with bias-tailored swapping augmentation [20.149645246997668]
ディープニューラルネットワークは、データセット固有のスプリットな相関に基づいて決定することが多く、偏りのないデータ分布を一般化することができない。
本稿では,バイアスタイプの監督を必要とせず,非バイアス表現を学習するための,バイアス調整強化に基づく新しいアプローチBiaSwapを提案する。
論文 参考訳(メタデータ) (2021-08-23T08:35:26Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。