論文の概要: Auditing Gender Presentation Differences in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2302.03675v2
- Date: Wed, 8 Feb 2023 01:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 12:13:29.198568
- Title: Auditing Gender Presentation Differences in Text-to-Image Models
- Title(参考訳): テキスト・画像モデルにおけるジェンダー提示の違い
- Authors: Yanzhe Zhang, Lu Jiang, Greg Turk, Diyi Yang
- Abstract要約: 我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
- 参考スコア(独自算出の注目度): 54.16959473093973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image models, which can generate high-quality images based on textual
input, have recently enabled various content-creation tools. Despite
significantly affecting a wide range of downstream applications, the
distributions of these generated images are still not fully understood,
especially when it comes to the potential stereotypical attributes of different
genders. In this work, we propose a paradigm (Gender Presentation Differences)
that utilizes fine-grained self-presentation attributes to study how gender is
presented differently in text-to-image models. By probing gender indicators in
the input text (e.g., "a woman" or "a man"), we quantify the frequency
differences of presentation-centric attributes (e.g., "a shirt" and "a dress")
through human annotation and introduce a novel metric: GEP. Furthermore, we
propose an automatic method to estimate such differences. The automatic GEP
metric based on our approach yields a higher correlation with human annotations
than that based on existing CLIP scores, consistently across three
state-of-the-art text-to-image models. Finally, we demonstrate the
generalization ability of our metrics in the context of gender stereotypes
related to occupations.
- Abstract(参考訳): テキスト入力に基づいて高品質な画像を生成するtext-to-imageモデルが先日,さまざまなコンテンツ生成ツールの提供を開始した。
幅広いダウンストリームアプリケーションに大きな影響を与えるにもかかわらず、生成した画像の分布は、特に異なる性別の潜在的ステレオタイプ特性に関して、まだ完全には理解されていない。
本研究では,細粒度自己表現属性を用いて,テキスト対画像モデルにおける性別の表現方法を検討するパラダイム(生成表現の違い)を提案する。
入力テキスト(例:「女性」または「男性」)の性別指標を探索することにより、人間のアノテーションを通してプレゼンテーション中心属性(例:「シャツ」と「ドレス」)の頻度差を定量化し、新しい指標「GEP」を導入する。
さらに,このような差異を推定する自動手法を提案する。
提案手法に基づく自動gepメトリクスは,既存のクリップスコアよりも人間のアノテーションとの相関度が高く,3つの最先端テキスト対画像モデルに一貫性がある。
最後に,職業に関連するジェンダーステレオタイプの文脈において,指標の一般化能力を示す。
関連論文リスト
- GRADE: Quantifying Sample Diversity in Text-to-Image Models [66.12068246962762]
本稿では,サンプルの多様性を定量化する手法であるGRADE: Granular Attribute Diversity Evaluationを提案する。
400のコンセプト属性ペアを用いて12のT2Iモデルの全体的な多様性を測定し、すべてのモデルが限定的な変動を示すことを示した。
我々の研究は、サンプルの多様性を測定するための現代的で意味論的に駆動されたアプローチを提案し、T2Iモデルによる出力の驚くべき均一性を強調している。
論文 参考訳(メタデータ) (2024-10-29T23:10:28Z) - Examining Gender and Racial Bias in Large Vision-Language Models Using a
Novel Dataset of Parallel Images [10.385717398477414]
EveRyday Scenariosのための新しいデータセットPAIRS(Parallel Images for eveRyday Scenarios)を提案する。
PAIRSデータセットには、人物のAI生成画像のセットが含まれており、背景や視覚的内容の点で画像は極めて類似しているが、性別や人種の寸法によって異なる。
このような画像を用いてLVLMを問合せすることにより,人物の知覚的性別や人種による応答の有意な差を観察する。
論文 参考訳(メタデータ) (2024-02-08T16:11:23Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Targeted Image Data Augmentation Increases Basic Skills Captioning
Robustness [0.932065750652415]
TIDA(Targeted Image-editing Data Augmentation)は、モデルの人間的な能力向上を目的としたデータ拡張手法である。
画像キャプションの指標において,性別,色,数量に関連するTIDA強化データセットが,より優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-09-27T20:12:41Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Vision-Language Models Performing Zero-Shot Tasks Exhibit Gender-based
Disparities [19.03751960721954]
ゼロショット視覚言語モデルが、異なる視覚タスクに対してジェンダーバイアスを示す範囲について検討する。
概念の集合にまたがって複数のデータセットを持つ異なる視覚言語モデルを評価する。
論文 参考訳(メタデータ) (2023-01-26T13:44:31Z) - How well can Text-to-Image Generative Models understand Ethical Natural
Language Interventions? [67.97752431429865]
倫理的介入を加える際の画像の多様性への影響について検討した。
予備研究は、モデル予測の大きな変化が「性別の無視」のような特定のフレーズによって引き起こされることを示している。
論文 参考訳(メタデータ) (2022-10-27T07:32:39Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。