論文の概要: Automated Evaluation of Gender Bias Across 13 Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2509.07050v1
- Date: Mon, 08 Sep 2025 15:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.05693
- Title: Automated Evaluation of Gender Bias Across 13 Large Multimodal Models
- Title(参考訳): 13大マルチモーダルモデルにおけるジェンダーバイアスの自動評価
- Authors: Juan Manuel Contreras,
- Abstract要約: 大規模マルチモーダルモデル(LMM)はテキスト・ツー・イメージ生成に革命をもたらしたが、トレーニングデータに有害な社会的バイアスが持続するリスクがある。
AI生成画像における社会的バイアスを評価するベンチマークである,Aymara Image Fairness Evaluationを導入する。
我々は,75のプロシージャ生成性中立性プロンプトを用いて13の市販LMMを試験し,ステレオタイプ,ステレオタイプ,非ステレオタイプの職業の人を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal models (LMMs) have revolutionized text-to-image generation, but they risk perpetuating the harmful social biases in their training data. Prior work has identified gender bias in these models, but methodological limitations prevented large-scale, comparable, cross-model analysis. To address this gap, we introduce the Aymara Image Fairness Evaluation, a benchmark for assessing social bias in AI-generated images. We test 13 commercially available LMMs using 75 procedurally-generated, gender-neutral prompts to generate people in stereotypically-male, stereotypically-female, and non-stereotypical professions. We then use a validated LLM-as-a-judge system to score the 965 resulting images for gender representation. Our results reveal (p < .001 for all): 1) LMMs systematically not only reproduce but actually amplify occupational gender stereotypes relative to real-world labor data, generating men in 93.0% of images for male-stereotyped professions but only 22.5% for female-stereotyped professions; 2) Models exhibit a strong default-male bias, generating men in 68.3% of the time for non-stereotyped professions; and 3) The extent of bias varies dramatically across models, with overall male representation ranging from 46.7% to 73.3%. Notably, the top-performing model de-amplified gender stereotypes and approached gender parity, achieving the highest fairness scores. This variation suggests high bias is not an inevitable outcome but a consequence of design choices. Our work provides the most comprehensive cross-model benchmark of gender bias to date and underscores the necessity of standardized, automated evaluation tools for promoting accountability and fairness in AI development.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)はテキスト・ツー・イメージ生成に革命をもたらしたが、トレーニングデータに有害な社会的バイアスが持続するリスクがある。
これまでの研究では、これらのモデルにおける性別バイアスが特定されていたが、方法論上の制限により、大規模で同等のクロスモデル分析が妨げられた。
このギャップに対処するために、AI生成画像の社会的バイアスを評価するベンチマークであるAymara Image Fairness Evaluationを導入する。
我々は,75のプロシージャ生成性中立性プロンプトを用いて13の市販LMMを試験し,ステレオタイプ,ステレオタイプ,非ステレオタイプの職業の人を生成する。
次に、検証されたLCM-as-a-judgeシステムを用いて、性別表現のための965の画像をスコアリングする。
結果が明らかになる(p < .001)。
1) LMMは、組織的に、実世界の労働データに対する職業性ステレオタイプを増幅し、男性ステレオタイプ専門職では93.0%、女性ステレオタイプ専門職では22.5%である。
2)モデルでは,非ステレオタイプ専門職の68.3%に男性を産み出す,強い既定偏見を示す。
3) 偏見の程度はモデルによって大きく異なり、男性全体の表現は46.7%から73.3%まで様々である。
特に、トップパフォーマンスモデルでは、性別ステレオタイプを非増幅し、ジェンダーパリティに近づき、最も公正なスコアを得た。
この変化は、高いバイアスは避けられない結果ではなく、設計選択の結果であることを示している。
私たちの研究は、これまでで最も包括的なジェンダーバイアスのクロスモデルベンチマークを提供し、AI開発における説明責任と公正性を促進するための標準化された自動評価ツールの必要性を強調しています。
関連論文リスト
- Who Gets the Callback? Generative AI and Gender Bias [0.030693357740321777]
大規模言語モデル(LLM)は特に高賃金の役割において男性を好む傾向にある。
求人広告における言語的特徴の包括的分析は、モデルレコメンデーションと伝統的なジェンダーステレオタイプとの強い整合性を示す。
我々の調査結果は、AIによる雇用が労働市場のバイアスを持続させ、企業内の公正性と多様性に影響を及ぼす可能性があることを強調している。
論文 参考訳(メタデータ) (2025-04-30T07:55:52Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - The Male CEO and the Female Assistant: Evaluation and Mitigation of Gender Biases in Text-To-Image Generation of Dual Subjects [58.27353205269664]
本稿では,Paired Stereotype Test (PST) フレームワークを提案する。
PSTクエリT2Iモデルは、男性ステレオタイプと女性ステレオタイプに割り当てられた2つの個人を描写する。
PSTを用いて、ジェンダーバイアスの2つの側面、つまり、ジェンダーの職業におけるよく知られたバイアスと、組織力におけるバイアスという新しい側面を評価する。
論文 参考訳(メタデータ) (2024-02-16T21:32:27Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Are Gender-Neutral Queries Really Gender-Neutral? Mitigating Gender Bias
in Image Search [8.730027941735804]
我々は、画像検索において、独特なジェンダーバイアスを研究する。
検索画像は、ジェンダーニュートラルな自然言語クエリに対して、しばしば性別不均衡である。
我々は2つの新しいデバイアスのアプローチを導入する。
論文 参考訳(メタデータ) (2021-09-12T04:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。