Fugu-MT 論文翻訳(概要): Social Biases through the Text-to-Image Generation Lens

論文の概要: Social Biases through the Text-to-Image Generation Lens

arxiv url: http://arxiv.org/abs/2304.06034v1
Date: Thu, 30 Mar 2023 05:29:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-16 22:06:06.518001
Title: Social Biases through the Text-to-Image Generation Lens
Title（参考訳）: テキスト対画像生成レンズによる社会的バイアス
Authors: Ranjita Naik, Besmira Nushi
Abstract要約: テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。 DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
参考スコア（独自算出の注目度）: 9.137275391251517
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-Image (T2I) generation is enabling new applications that support creators, designers, and general end users of productivity software by generating illustrative content with high photorealism starting from a given descriptive text as a prompt. Such models are however trained on massive amounts of web data, which surfaces the peril of potential harmful biases that may leak in the generation process itself. In this paper, we take a multi-dimensional approach to studying and quantifying common social biases as reflected in the generated images, by focusing on how occupations, personality traits, and everyday situations are depicted across representations of (perceived) gender, age, race, and geographical location. Through an extensive set of both automated and human evaluation experiments we present findings for two popular T2I models: DALLE-v2 and Stable Diffusion. Our results reveal that there exist severe occupational biases of neutral prompts majorly excluding groups of people from results for both models. Such biases can get mitigated by increasing the amount of specification in the prompt itself, although the prompting mitigation will not address discrepancies in image quality or other usages of the model or its representations in other scenarios. Further, we observe personality traits being associated with only a limited set of people at the intersection of race, gender, and age. Finally, an analysis of geographical location representations on everyday situations (e.g., park, food, weddings) shows that for most situations, images generated through default location-neutral prompts are closer and more similar to images generated for locations of United States and Germany.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)生成は、与えられた記述的テキストから始まる高光写実性のあるイラストラティブコンテンツをプロンプトとして生成することにより、プロダクティビティソフトウェアのクリエータ、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。しかし、そのようなモデルは大量のwebデータに基づいて訓練され、生成プロセス自体に漏れる可能性のある有害なバイアスの危険を表面化します。本稿では, 職業, 性格特性, 日常的状況が性別, 年齢, 人種, 地理的位置の表象にまたがってどのように表されるかに注目し, 生成画像に反映される共通の社会バイアスを研究し, 定量化する多次元的アプローチを提案する。自動評価実験と人間の評価実験の両方を通じて,t2iモデルであるdalle-v2とstable diffusionについて知見を得た。以上の結果から,中性刺激の重篤な職業的偏見が,両モデルの結果から大半を除外していることが明らかとなった。このようなバイアスは、プロンプト自体の仕様の量を増やすことで軽減できるが、プロンプトの緩和は、画像品質や他のモデルや他のシナリオにおけるその表現の相違に対処しない。さらに,人種,性別,年齢の交点において,限られた人数にのみ関連付けられる性格特性を観察する。最後に、日々の状況(例えば、公園、食べ物、結婚式)における地理的な位置表現の分析は、ほとんどの状況において、デフォルトの位置中立的なプロンプトによって生成された画像は、米国とドイツの場所のために生成された画像に近づき、より類似していることを示している。

関連論文リスト

When Cars Have Stereotypes: Auditing Demographic Bias in Objects from Text-to-Image Models [4.240144901142787]
このようなバイアスを測定するための新しいフレームワークであるSODA(Stereotyped Object Diagnostic Audit)を紹介する。提案手法は, 対象物の視覚特性を人口統計学的手がかりと中性プロンプトとを比較した。性別や民族によって引き起こされる色パターンの反復など、特定の人口集団と視覚特性の強い関連を明らかにする。
論文参考訳（メタデータ） (2025-08-05T14:15:53Z)
Hidden Bias in the Machine: Stereotypes in Text-to-Image Models [0.0]
テキスト・トゥ・イメージ(T2I)モデルは視覚的コンテンツ生成を変革し、自然言語のプロンプトから非常にリアルな画像を生成する。我々は、職業、特徴、行動、イデオロギー、感情、家族の役割、場所の記述、精神性、ライフイベントなど、テーマのカテゴリにまたがる様々なプロンプトをキュレートした。 160のトピックそれぞれに対して、さまざまな意味や視点を反映した複数のプロンプトのバリエーションを作成しました。本分析では, 性別, 人種, 年齢, 体型, その他の人中心的要因の表現に, 生成画像間で有意差が認められた。
論文参考訳（メタデータ） (2025-06-09T23:06:04Z)
Text-to-Image Models and Their Representation of People from Different Nationalities Engaging in Activities [2.7195102129095003]
1つのシナリオでは、ほとんどの画像、もう1つのシナリオは、伝統的な服装を身に着けている個人を描いている。この表現パターンと特定国に関連する地域との間に統計的に有意な関係が認められた。これは、この問題が特定の地域、特に中東と北アフリカ、サハラ以南のアフリカに不均等に影響を及ぼしていることを示している。
論文参考訳（メタデータ） (2025-04-08T05:37:06Z)
Using complex prompts to identify fine-grained biases in image generation through ChatGPT-4o [0.0]
バイアスの2つの次元は、大きなAIモデルの研究を通して明らかにすることができる。トレーニングデータやAIの製品に偏りがあるだけでなく、社会にも偏りがある。画像生成AIに複雑なプロンプトを使ってバイアスのどちらの次元を調査できるかを簡単に議論する。
論文参考訳（メタデータ） (2025-04-01T03:17:35Z)
How Do Generative Models Draw a Software Engineer? A Case Study on Stable Diffusion Bias [9.574645433491225]
我々は,ソフトウェア工学タスクに対する安定拡散モデルの3つのバージョンで表される性別と民族性バイアスを評価する。結果は、すべてのモデルが、ソフトウェアエンジニアを代表する男性の数字に大きく偏っていることを示している。しかしながら、すべてのモデルは、使用するプロンプトスタイルに関係なく、黒とアラブのフィギュアを著しく下回っている。
論文参考訳（メタデータ） (2025-01-15T18:57:17Z)
Gender Bias Evaluation in Text-to-image Generation: A Survey [25.702257177921048]
テキスト・ツー・イメージ・ジェネレーションにおけるジェンダーバイアス評価に関する最近の研究についてレビューする。安定拡散やDALL-E 2といった最近の人気モデルの評価に焦点をあてる。
論文参考訳（メタデータ） (2024-08-21T06:01:23Z)
Towards Geographic Inclusion in the Evaluation of Text-to-Image Models [25.780536950323683]
我々は,アフリカ,ヨーロッパ,東南アジアにおけるアノテータの地理的表現,視覚的魅力,実画像および生成画像の一貫性に対する認識の程度について検討した。例えば、異なる場所のアノテータは、地理的に代表的であると見なされる領域の誇張されたステレオタイプ的な描写について、しばしば意見が一致しない。自動評価と人的評価を改善するためのステップを推奨する。
論文参考訳（メタデータ） (2024-05-07T16:23:06Z)
The Male CEO and the Female Assistant: Evaluation and Mitigation of Gender Biases in Text-To-Image Generation of Dual Subjects [58.27353205269664]
本稿では,Paired Stereotype Test (PST) フレームワークを提案する。 PSTクエリT2Iモデルは、男性ステレオタイプと女性ステレオタイプに割り当てられた2つの個人を描写する。 PSTを用いて、ジェンダーバイアスの2つの側面、つまり、ジェンダーの職業におけるよく知られたバイアスと、組織力におけるバイアスという新しい側面を評価する。
論文参考訳（メタデータ） (2024-02-16T21:32:27Z)
New Job, New Gender? Measuring the Social Bias in Image Generation Models [85.26441602999014]
画像生成モデルは、社会的ステレオタイプとバイアスを永続するコンテンツを生成できる。画像生成モデルにおける社会的バイアスを的確に、かつ、かつ、包括的に引き起こすことのできるフレームワークであるBiasPainterを提案する。 BiasPainterは、自動バイアス検出において90.8%の精度を達成することができる。
論文参考訳（メタデータ） (2024-01-01T14:06:55Z)
TIBET: Identifying and Evaluating Biases in Text-to-Image Generative Models [22.076898042211305]
我々は、任意のTTIモデルと任意のプロンプトに対して、幅広いバイアススペクトルを研究、定量化するための一般的なアプローチを提案する。我々の手法は、与えられたプロンプトに関連する可能性のある潜在的なバイアスを自動的に識別し、それらのバイアスを測定する。本研究では,本手法が意味論的概念を通じて複雑な多次元バイアスを説明できることを示す。
論文参考訳（メタデータ） (2023-12-03T02:31:37Z)
Inspecting the Geographical Representativeness of Images from Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文参考訳（メタデータ） (2023-05-18T16:08:11Z)
Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文参考訳（メタデータ） (2023-03-20T19:32:49Z)
How well can Text-to-Image Generative Models understand Ethical Natural Language Interventions? [67.97752431429865]
倫理的介入を加える際の画像の多様性への影響について検討した。予備研究は、モデル予測の大きな変化が「性別の無視」のような特定のフレーズによって引き起こされることを示している。
論文参考訳（メタデータ） (2022-10-27T07:32:39Z)
DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文参考訳（メタデータ） (2022-02-08T18:36:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。