論文の概要: Social Biases through the Text-to-Image Generation Lens
- arxiv url: http://arxiv.org/abs/2304.06034v1
- Date: Thu, 30 Mar 2023 05:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-16 22:06:06.518001
- Title: Social Biases through the Text-to-Image Generation Lens
- Title(参考訳): テキスト対画像生成レンズによる社会的バイアス
- Authors: Ranjita Naik, Besmira Nushi
- Abstract要約: テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。
生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。
DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
- 参考スコア(独自算出の注目度): 9.137275391251517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) generation is enabling new applications that support
creators, designers, and general end users of productivity software by
generating illustrative content with high photorealism starting from a given
descriptive text as a prompt. Such models are however trained on massive
amounts of web data, which surfaces the peril of potential harmful biases that
may leak in the generation process itself. In this paper, we take a
multi-dimensional approach to studying and quantifying common social biases as
reflected in the generated images, by focusing on how occupations, personality
traits, and everyday situations are depicted across representations of
(perceived) gender, age, race, and geographical location. Through an extensive
set of both automated and human evaluation experiments we present findings for
two popular T2I models: DALLE-v2 and Stable Diffusion. Our results reveal that
there exist severe occupational biases of neutral prompts majorly excluding
groups of people from results for both models. Such biases can get mitigated by
increasing the amount of specification in the prompt itself, although the
prompting mitigation will not address discrepancies in image quality or other
usages of the model or its representations in other scenarios. Further, we
observe personality traits being associated with only a limited set of people
at the intersection of race, gender, and age. Finally, an analysis of
geographical location representations on everyday situations (e.g., park, food,
weddings) shows that for most situations, images generated through default
location-neutral prompts are closer and more similar to images generated for
locations of United States and Germany.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成は、与えられた記述的テキストから始まる高光写実性のあるイラストラティブコンテンツをプロンプトとして生成することにより、プロダクティビティソフトウェアのクリエータ、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。
しかし、そのようなモデルは大量のwebデータに基づいて訓練され、生成プロセス自体に漏れる可能性のある有害なバイアスの危険を表面化します。
本稿では, 職業, 性格特性, 日常的状況が性別, 年齢, 人種, 地理的位置の表象にまたがってどのように表されるかに注目し, 生成画像に反映される共通の社会バイアスを研究し, 定量化する多次元的アプローチを提案する。
自動評価実験と人間の評価実験の両方を通じて,t2iモデルであるdalle-v2とstable diffusionについて知見を得た。
以上の結果から,中性刺激の重篤な職業的偏見が,両モデルの結果から大半を除外していることが明らかとなった。
このようなバイアスは、プロンプト自体の仕様の量を増やすことで軽減できるが、プロンプトの緩和は、画像品質や他のモデルや他のシナリオにおけるその表現の相違に対処しない。
さらに,人種,性別,年齢の交点において,限られた人数にのみ関連付けられる性格特性を観察する。
最後に、日々の状況(例えば、公園、食べ物、結婚式)における地理的な位置表現の分析は、ほとんどの状況において、デフォルトの位置中立的なプロンプトによって生成された画像は、米国とドイツの場所のために生成された画像に近づき、より類似していることを示している。
関連論文リスト
- Gender Bias Evaluation in Text-to-image Generation: A Survey [25.702257177921048]
テキスト・ツー・イメージ・ジェネレーションにおけるジェンダーバイアス評価に関する最近の研究についてレビューする。
安定拡散やDALL-E 2といった最近の人気モデルの評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-08-21T06:01:23Z) - Towards Geographic Inclusion in the Evaluation of Text-to-Image Models [25.780536950323683]
我々は,アフリカ,ヨーロッパ,東南アジアにおけるアノテータの地理的表現,視覚的魅力,実画像および生成画像の一貫性に対する認識の程度について検討した。
例えば、異なる場所のアノテータは、地理的に代表的であると見なされる領域の誇張されたステレオタイプ的な描写について、しばしば意見が一致しない。
自動評価と人的評価を改善するためのステップを推奨する。
論文 参考訳(メタデータ) (2024-05-07T16:23:06Z) - The Male CEO and the Female Assistant: Evaluation and Mitigation of Gender Biases in Text-To-Image Generation of Dual Subjects [58.27353205269664]
本稿では,Paired Stereotype Test (PST) フレームワークを提案する。
PSTクエリT2Iモデルは、男性ステレオタイプと女性ステレオタイプに割り当てられた2つの個人を描写する。
PSTを用いて、ジェンダーバイアスの2つの側面、つまり、ジェンダーの職業におけるよく知られたバイアスと、組織力におけるバイアスという新しい側面を評価する。
論文 参考訳(メタデータ) (2024-02-16T21:32:27Z) - New Job, New Gender? Measuring the Social Bias in Image Generation Models [85.26441602999014]
画像生成モデルは、社会的ステレオタイプとバイアスを永続するコンテンツを生成できる。
画像生成モデルにおける社会的バイアスを的確に、かつ、かつ、包括的に引き起こすことのできるフレームワークであるBiasPainterを提案する。
BiasPainterは、自動バイアス検出において90.8%の精度を達成することができる。
論文 参考訳(メタデータ) (2024-01-01T14:06:55Z) - TIBET: Identifying and Evaluating Biases in Text-to-Image Generative Models [22.076898042211305]
我々は、任意のTTIモデルと任意のプロンプトに対して、幅広いバイアススペクトルを研究、定量化するための一般的なアプローチを提案する。
我々の手法は、与えられたプロンプトに関連する可能性のある潜在的なバイアスを自動的に識別し、それらのバイアスを測定する。
本研究では,本手法が意味論的概念を通じて複雑な多次元バイアスを説明できることを示す。
論文 参考訳(メタデータ) (2023-12-03T02:31:37Z) - Inspecting the Geographical Representativeness of Images from
Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。
国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。
多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文 参考訳(メタデータ) (2023-05-18T16:08:11Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - How well can Text-to-Image Generative Models understand Ethical Natural
Language Interventions? [67.97752431429865]
倫理的介入を加える際の画像の多様性への影響について検討した。
予備研究は、モデル予測の大きな変化が「性別の無視」のような特定のフレーズによって引き起こされることを示している。
論文 参考訳(メタデータ) (2022-10-27T07:32:39Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。