論文の概要: HoloFair: Unified T2I Fairness Evaluation and Fair-GRPO Debiasing
- arxiv url: http://arxiv.org/abs/2605.24687v1
- Date: Sat, 23 May 2026 17:52:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.325871
- Title: HoloFair: Unified T2I Fairness Evaluation and Fair-GRPO Debiasing
- Title(参考訳): HoloFair: 統一T2Iフェアネス評価とFair-GRPOデバイアス
- Authors: Ruyi Chen, Lu Zhou, Xiaogang Xu, Chiyu Zhang, Jiafei Wu, Liming Fang,
- Abstract要約: 既存の評価手法は1次元バイアスのみに対処する。
多次元的偏見分析のための総合的なベンチマークフレームワークであるHoloFairを紹介する。
また,強化学習に基づくデバイアス法であるFair-GRPOについても紹介する。
- 参考スコア(独自算出の注目度): 20.795940054868854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image (T2I) models have made significant strides in visual realism and semantic consistency, yet they often perpetuate and amplify societal biases. Existing evaluation methods typically address only single-dimensional biases, lacking perspectives to uncover model biases at social-related deeper semantic levels. We introduce HoloFair, a comprehensive benchmark framework for multidimensional demographic bias analysis. Built upon our large-scale fairness-oriented dataset and the SpaFreq (Spatial-Frequency) attribute classifier, this framework proposes the Multi-attribute, Group-wise Bias Index (MGBI) metric, designed to assess both intrinsic diversity and conditional biases. Beyond evaluation, we further introduce Fair-GRPO, a reinforcement-learning-based debiasing method that alters the distribution of generative models through a designed multi-objective reward function. E.g., experiments on the SD3.5-Medium model demonstrate that Fair-GRPO significantly improves multidimensional fairness while maintaining high image quality. We also analyze potential reward hacking phenomena and provide corresponding mitigation strategies. Code and dataset are available at https://github.com/1059684669/HoloFair
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルは視覚的リアリズムとセマンティック・一貫性において大きな進歩を遂げてきたが、しばしば社会的バイアスを持続し増幅する。
既存の評価手法は一般に1次元のバイアスのみに対処し、社会的に深い意味レベルでモデルバイアスを明らかにする視点を欠いている。
多次元的偏見分析のための総合的なベンチマークフレームワークであるHoloFairを紹介する。
大規模フェアネス指向データセットとSpaFreq(Spatial-Frequency)属性分類器に基づいて、本フレームワークは、本質的な多様性と条件バイアスの両方を評価するために設計された、多属性、グループワイドバイアス指標(MGBI)メトリクスを提案する。
評価以外にも,多目的報酬関数を用いて生成モデルの分布を変化させる強化学習に基づくデバイアス法であるFair-GRPOについても紹介する。
例えば、SD3.5-Mediumモデルの実験では、Fair-GRPOは高画質を維持しながら多次元の公正性を著しく改善することを示した。
我々はまた、潜在的報酬ハッキング現象を分析し、それに対応する緩和戦略を提供する。
コードとデータセットはhttps://github.com/1059684669/HoloFairで入手できる。
関連論文リスト
- BiasIG: Benchmarking Multi-dimensional Social Biases in Text-to-Image Models [30.463069540851688]
47,040のプロンプトをキュレートしたデータセット間で社会的バイアスを定量化する統一ベンチマークであるBiasIGを紹介する。
8つのT2Iモデルと3つのデバイアス法に関する大規模な実験は、BiasIGを堅牢な診断ツールとして検証している。
我々の研究は、AIGCにおける公正性に対する正確な分類駆動アプローチを提唱し、将来のクローズドループ緩和におけるフィードバック信号としてBiasIGのメトリクスを使用するための理論的枠組みを提供する。
論文 参考訳(メタデータ) (2026-04-13T18:22:50Z) - Understanding trade-offs in classifier bias with quality-diversity optimization: an application to talent management [2.334978724544296]
公正なAIモデルを開発する上での大きな課題は、そのようなモデルをトレーニングする上で利用可能なデータのバイアスにある。
本稿では,データセットに固有のバイアスを可視化し,公平性と正確性の間の潜在的なトレードオフを理解する方法を提案する。
論文 参考訳(メタデータ) (2024-11-25T22:14:02Z) - Bias Begets Bias: The Impact of Biased Embeddings on Diffusion Models [0.0]
テキスト・トゥ・イメージ(TTI)システムは、社会的偏見に対する精査が増加している。
組込み空間をTTIモデルのバイアス源として検討する。
CLIPのような偏りのあるマルチモーダル埋め込みは、表現バランスの取れたTTIモデルに対して低いアライメントスコアをもたらす。
論文 参考訳(メタデータ) (2024-09-15T01:09:55Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Thinking Racial Bias in Fair Forgery Detection: Models, Datasets and Evaluations [63.52709761339949]
最初に、Fair Forgery Detection(FairFD)データセットと呼ばれる専用のデータセットをコントリビュートし、SOTA(Public State-of-the-art)メソッドの人種的偏見を証明する。
我々は、偽りの結果を避けることができる平均的メトリクスと実用正規化メトリクスを含む新しいメトリクスを設計する。
また,有効で堅牢な後処理技術であるBias Pruning with Fair Activations (BPFA)も提案する。
論文 参考訳(メタデータ) (2024-07-19T14:53:18Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。