論文の概要: Hidden Bias in the Machine: Stereotypes in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2506.13780v1
- Date: Mon, 09 Jun 2025 23:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.125574
- Title: Hidden Bias in the Machine: Stereotypes in Text-to-Image Models
- Title(参考訳): マシン内の隠れバイアス:テキスト・画像モデルにおけるステレオタイプ
- Authors: Sedat Porikli, Vedat Porikli,
- Abstract要約: テキスト・トゥ・イメージ(T2I)モデルは視覚的コンテンツ生成を変革し、自然言語のプロンプトから非常にリアルな画像を生成する。
我々は、職業、特徴、行動、イデオロギー、感情、家族の役割、場所の記述、精神性、ライフイベントなど、テーマのカテゴリにまたがる様々なプロンプトをキュレートした。
160のトピックそれぞれに対して、さまざまな意味や視点を反映した複数のプロンプトのバリエーションを作成しました。
本分析では, 性別, 人種, 年齢, 体型, その他の人中心的要因の表現に, 生成画像間で有意差が認められた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) models have transformed visual content creation, producing highly realistic images from natural language prompts. However, concerns persist around their potential to replicate and magnify existing societal biases. To investigate these issues, we curated a diverse set of prompts spanning thematic categories such as occupations, traits, actions, ideologies, emotions, family roles, place descriptions, spirituality, and life events. For each of the 160 unique topics, we crafted multiple prompt variations to reflect a wide range of meanings and perspectives. Using Stable Diffusion 1.5 (UNet-based) and Flux-1 (DiT-based) models with original checkpoints, we generated over 16,000 images under consistent settings. Additionally, we collected 8,000 comparison images from Google Image Search. All outputs were filtered to exclude abstract, distorted, or nonsensical results. Our analysis reveals significant disparities in the representation of gender, race, age, somatotype, and other human-centric factors across generated images. These disparities often mirror and reinforce harmful stereotypes embedded in societal narratives. We discuss the implications of these findings and emphasize the need for more inclusive datasets and development practices to foster fairness in generative visual systems.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルは視覚的コンテンツ生成を変革し、自然言語のプロンプトから非常にリアルな画像を生成する。
しかし、既存の社会的バイアスを複製し拡大する可能性に関する懸念が続いている。
これらの問題を調査するために、職業、特徴、行動、イデオロギー、感情、家族の役割、場所の記述、精神性、ライフイベントなど、テーマカテゴリーにまたがるさまざまなプロンプトを整理した。
160のトピックそれぞれに対して、さまざまな意味や視点を反映した複数のプロンプトのバリエーションを作成しました。
安定拡散1.5(UNetベース)とFlux-1(DiTベース)モデルを用いて,一貫した設定で16,000以上の画像を生成する。
さらに、Googleイメージ検索から8000枚の比較画像を収集しました。
すべての出力は、抽象的、歪んだ、あるいは非意味な結果を排除するためにフィルタリングされた。
本分析では, 性別, 人種, 年齢, 体型, その他の人中心的要因の表現に, 生成画像間で有意差が認められた。
これらの格差はしばしば社会的な物語に埋め込まれた有害なステレオタイプを反映し、補強する。
これらの知見がもたらす意味を議論し、生成的視覚システムにおける公平性を高めるために、より包括的なデータセットと開発プラクティスの必要性を強調する。
関連論文リスト
- A Large Scale Analysis of Gender Biases in Text-to-Image Generative Models [45.55471356313678]
本稿では,テキスト・ツー・イメージ(T2I)モデルにおける性別バイアスに関する大規模な研究について述べる。
我々は3,217のジェンダーニュートラルプロンプトのデータセットを作成し、5つの主要なT2Iモデルから1プロンプトあたり200画像を生成する。
生成した画像中の知覚された人物の性別を自動的に検出し、性別の異なる人物や複数の人物の像をフィルタリングする。
論文 参考訳(メタデータ) (2025-03-30T11:11:51Z) - StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。
テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。
提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文 参考訳(メタデータ) (2024-06-19T17:59:40Z) - Evaluating Vision-Language Models on Bistable Images [34.492117496933915]
本研究は,バイスタブル画像を用いた視覚言語モデルについて,これまでで最も広範に検討したものである。
私たちは手動で29枚のバイスタブル画像と関連するラベルを集め、明るさ、色調、回転で116種類の操作を行ないました。
以上の結果から,Idefics ファミリーと LLaVA1.5-13b のモデルを除いて,別の解釈が優先されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-29T18:04:59Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Stable Diffusion Exposed: Gender Bias from Prompt to Image [25.702257177921048]
本稿では,安定拡散画像における生成過程の各ステップにおける性別指標の影響を解析する評価プロトコルを提案する。
以上の結果から,特定の性別に合わせて調整された楽器や,全体のレイアウトの変化など,物体の描写の違いの存在が示唆された。
論文 参考訳(メタデータ) (2023-12-05T10:12:59Z) - Social Biases through the Text-to-Image Generation Lens [9.137275391251517]
テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。
生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。
DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
論文 参考訳(メタデータ) (2023-03-30T05:29:13Z) - Discovering and Mitigating Visual Biases through Keyword Explanation [66.71792624377069]
視覚バイアスをキーワードとして解釈するBias-to-Text(B2T)フレームワークを提案する。
B2Tは、CelebAの性別バイアス、ウォーターバードの背景バイアス、ImageNet-R/Cの分布シフトなど、既知のバイアスを特定することができる。
B2Tは、Dollar StreetやImageNetのような大きなデータセットで、新しいバイアスを明らかにする。
論文 参考訳(メタデータ) (2023-01-26T13:58:46Z) - Easily Accessible Text-to-Image Generation Amplifies Demographic
Stereotypes at Large Scale [61.555788332182395]
危険で複雑なステレオタイプを増幅する機械学習モデルの可能性を検討する。
さまざまな通常のプロンプトがステレオタイプを生成しており、それらは単に特性、記述子、職業、オブジェクトに言及するプロンプトを含む。
論文 参考訳(メタデータ) (2022-11-07T18:31:07Z) - How well can Text-to-Image Generative Models understand Ethical Natural
Language Interventions? [67.97752431429865]
倫理的介入を加える際の画像の多様性への影響について検討した。
予備研究は、モデル予測の大きな変化が「性別の無視」のような特定のフレーズによって引き起こされることを示している。
論文 参考訳(メタデータ) (2022-10-27T07:32:39Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。