論文の概要: Social Biases through the Text-to-Image Generation Lens
- arxiv url: http://arxiv.org/abs/2304.06034v1
- Date: Thu, 30 Mar 2023 05:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-16 22:06:06.518001
- Title: Social Biases through the Text-to-Image Generation Lens
- Title(参考訳): テキスト対画像生成レンズによる社会的バイアス
- Authors: Ranjita Naik, Besmira Nushi
- Abstract要約: テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。
生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。
DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
- 参考スコア(独自算出の注目度): 9.137275391251517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) generation is enabling new applications that support
creators, designers, and general end users of productivity software by
generating illustrative content with high photorealism starting from a given
descriptive text as a prompt. Such models are however trained on massive
amounts of web data, which surfaces the peril of potential harmful biases that
may leak in the generation process itself. In this paper, we take a
multi-dimensional approach to studying and quantifying common social biases as
reflected in the generated images, by focusing on how occupations, personality
traits, and everyday situations are depicted across representations of
(perceived) gender, age, race, and geographical location. Through an extensive
set of both automated and human evaluation experiments we present findings for
two popular T2I models: DALLE-v2 and Stable Diffusion. Our results reveal that
there exist severe occupational biases of neutral prompts majorly excluding
groups of people from results for both models. Such biases can get mitigated by
increasing the amount of specification in the prompt itself, although the
prompting mitigation will not address discrepancies in image quality or other
usages of the model or its representations in other scenarios. Further, we
observe personality traits being associated with only a limited set of people
at the intersection of race, gender, and age. Finally, an analysis of
geographical location representations on everyday situations (e.g., park, food,
weddings) shows that for most situations, images generated through default
location-neutral prompts are closer and more similar to images generated for
locations of United States and Germany.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成は、与えられた記述的テキストから始まる高光写実性のあるイラストラティブコンテンツをプロンプトとして生成することにより、プロダクティビティソフトウェアのクリエータ、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。
しかし、そのようなモデルは大量のwebデータに基づいて訓練され、生成プロセス自体に漏れる可能性のある有害なバイアスの危険を表面化します。
本稿では, 職業, 性格特性, 日常的状況が性別, 年齢, 人種, 地理的位置の表象にまたがってどのように表されるかに注目し, 生成画像に反映される共通の社会バイアスを研究し, 定量化する多次元的アプローチを提案する。
自動評価実験と人間の評価実験の両方を通じて,t2iモデルであるdalle-v2とstable diffusionについて知見を得た。
以上の結果から,中性刺激の重篤な職業的偏見が,両モデルの結果から大半を除外していることが明らかとなった。
このようなバイアスは、プロンプト自体の仕様の量を増やすことで軽減できるが、プロンプトの緩和は、画像品質や他のモデルや他のシナリオにおけるその表現の相違に対処しない。
さらに,人種,性別,年齢の交点において,限られた人数にのみ関連付けられる性格特性を観察する。
最後に、日々の状況(例えば、公園、食べ物、結婚式)における地理的な位置表現の分析は、ほとんどの状況において、デフォルトの位置中立的なプロンプトによって生成された画像は、米国とドイツの場所のために生成された画像に近づき、より類似していることを示している。
関連論文リスト
- New Job, New Gender? Measuring the Social Bias in Image Generation
Models [88.93677200602887]
画像生成モデルは、与えられたテキストから画像を生成し、編集することができる。
DALL-EとMidjourneyによる画像生成技術の最近の進歩は画期的なものである。
これらの高度なモデルは、しばしば巨大なインターネットデータセットでトレーニングされており、社会的ステレオタイプとバイアスを永続するコンテンツを生成することに感受性がある。
画像生成モデルにおける社会的バイアスを的確に、かつ、包括的に引き起こすことのできる新しいテストフレームワークであるBiasPainterを提案する。
論文 参考訳(メタデータ) (2024-01-01T14:06:55Z) - Exploring Social Bias in Downstream Applications of Text-to-Image
Foundation Models [72.06006736916821]
合成画像を用いて、社会的バイアスに対するテキスト・画像モデル、画像編集と分類の2つの応用を探索する。
提案手法を用いて,最先端のオープンソーステキスト・ツー・イメージ・モデルであるtextitStable Diffusion における有意義かつ有意義なセクション間社会的バイアスを明らかにする。
本研究は、下流業務・サービスにおけるテキスト・ツー・イメージ基盤モデルの導入について、未発表の点に注意を払っている。
論文 参考訳(メタデータ) (2023-12-05T14:36:49Z) - TIBET: Identifying and Evaluating Biases in Text-to-Image Generative
Models [23.18396000415575]
本稿では,任意のテキスト・ツー・イメージ(TTI)モデルと任意のプロンプトに対して,幅広いバイアススペクトルを研究・定量化するための一般的なアプローチを提案する。
我々の手法は、与えられたプロンプトに関連する可能性のある潜在的なバイアスを自動的に識別し、それらのバイアスを測定する。
本研究では,本手法が意味論的概念を通じて複雑な多次元バイアスを説明できることを示す。
論文 参考訳(メタデータ) (2023-12-03T02:31:37Z) - Inspecting the Geographical Representativeness of Images from
Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。
国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。
多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文 参考訳(メタデータ) (2023-05-18T16:08:11Z) - Uncurated Image-Text Datasets: Shedding Light on Demographic Bias [21.421722941901123]
MSCOCOのような小さいが手動で注釈付けされたデータセットでさえ、社会的バイアスの影響を受けている。
最初のコントリビューションは、ビジョンと言語モデルのトレーニングに広く使用されている、Google Conceptual Captionsデータセットの一部に注釈を付けることです。
第2の貢献は、アノテーションの包括的な分析を行うことであり、どのように異なる人口集団が表現されるかに焦点を当てている。
第3の貢献は3つの一般的な視覚・言語タスクを評価することであり、社会的バイアスはそれらすべてにおいて永続的な問題であることを示している。
論文 参考訳(メタデータ) (2023-04-06T02:33:51Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - A Friendly Face: Do Text-to-Image Systems Rely on Stereotypes when the
Input is Under-Specified? [7.586041161211335]
視覚的に不特定なプロンプトに応答して生成された画像の特性について検討する。
多くの場合、画像はステレオタイプ文学で報告されているものと類似した人口統計バイアスを含む。
論文 参考訳(メタデータ) (2023-02-14T16:11:06Z) - How well can Text-to-Image Generative Models understand Ethical Natural
Language Interventions? [67.97752431429865]
倫理的介入を加える際の画像の多様性への影響について検討した。
予備研究は、モデル予測の大きな変化が「性別の無視」のような特定のフレーズによって引き起こされることを示している。
論文 参考訳(メタデータ) (2022-10-27T07:32:39Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。