論文の概要: Text-to-Image Models and Their Representation of People from Different Nationalities Engaging in Activities
- arxiv url: http://arxiv.org/abs/2504.06313v3
- Date: Wed, 25 Jun 2025 19:48:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 15:38:00.174538
- Title: Text-to-Image Models and Their Representation of People from Different Nationalities Engaging in Activities
- Title(参考訳): テキスト・ツー・イメージ・モデルと活動に携わる異なる国籍の人々の表現
- Authors: Abdulkareem Alsudais,
- Abstract要約: 1つのシナリオでは52.88%のイメージ、もう1つのシナリオでは27.4%が伝統的な服装を身に着けている。
この表現パターンと領域の間に統計的に有意な関係が認められた。
これは、この問題が特定の地域、特に中東と北アフリカ、サハラ以南のアフリカに不均等に影響を及ぼしていることを示している。
- 参考スコア(独自算出の注目度): 2.7195102129095003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates how a popular Text-to-Image (T2I) model represents people from 208 different nationalities when prompted to generate images of individuals engaging in typical activities. Two scenarios were developed, and 644 images were generated based on input prompts that specified nationalities. The results show that in one scenario, 52.88% of images, and in the other, 27.4%, depict individuals wearing traditional attire. A statistically significant relationship was observed between this representation pattern and regions. This indicates that the issue disproportionately affects certain areas, particularly the Middle East & North Africa and Sub-Saharan Africa. A notable association with income groups was also found. CLIP, ALIGN, and GPT-4.1 mini were used to measure alignment scores between generated images and 3320 prompts and captions, with findings indicating statistically significant higher scores for images featuring individuals in traditional attire in one scenario. The study also examined revised prompts, finding that the word "traditional" was added by the model to 88.46% of prompts for one scenario. These findings provide valuable insights into T2I models' representation of individuals across different countries, demonstrating how the examined model prioritizes traditional characteristics despite their impracticality for the given activities.
- Abstract(参考訳): 本稿では,T2Iモデルが,典型的な活動に従事する個人の画像の生成を促すと,208の異なる国籍の人々がどう表現するかを考察する。
2つのシナリオが開発され、特定の国籍の入力プロンプトに基づいて644の画像が生成された。
その結果、1つのシナリオでは52.88%のイメージ、もう1つのシナリオでは27.4%が伝統的な服装を身に着けている。
この表現パターンと領域の間に統計的に有意な関係が認められた。
これは、この問題が特定の地域、特に中東と北アフリカ、サハラ以南のアフリカに不均等に影響を及ぼしていることを示している。
また、所得グループとの特筆すべき関連も見つかった。
CLIP, ALIGN, GPT-4.1 miniは、生成された画像と3320のプロンプトとキャプションのアライメントスコアを測定するために用いられ、伝統的な服装の個人を特徴付ける画像の統計的に高いスコアが1つのシナリオで示された。
研究はまた、改訂されたプロンプトを調べ、このモデルによって「伝統的な」という言葉が1つのシナリオに対するプロンプトの88.46%に追加されたことを発見した。
これらの知見は、T2Iモデルが様々な国にまたがる個人を表現していることに関する貴重な洞察を与え、調査されたモデルが、与えられた活動に対して不現実性があるにもかかわらず、いかに伝統的な特徴を優先するかを実証した。
関連論文リスト
- Identifying Implicit Social Biases in Vision-Language Models [34.53206726136747]
我々は、視覚言語モデルに存在する社会的バイアスを体系的に分析する。
CLIPは有害な単語と特定の人口集団の間に望ましくない関連性を示すことが多い。
本研究は,視覚言語モデルにおけるバイアスの評価と対処の重要性を強調した。
論文 参考訳(メタデータ) (2024-11-01T19:41:28Z) - The Factuality Tax of Diversity-Intervened Text-to-Image Generation: Benchmark and Fact-Augmented Intervention [61.80236015147771]
我々は多様性の介入とT2Iモデルにおける人口統計学的事実性とのトレードオフを定量化する。
DoFaiRの実験では、多様性指向の指示によって、性別や人種の異なる集団の数が増加することが明らかになった。
本研究では,歴史における世代ごとのジェンダーや人種構成について,言語化された事実情報を反映したFact-Augmented Intervention (FAI)を提案する。
論文 参考訳(メタデータ) (2024-06-29T09:09:42Z) - Towards Geographic Inclusion in the Evaluation of Text-to-Image Models [25.780536950323683]
我々は,アフリカ,ヨーロッパ,東南アジアにおけるアノテータの地理的表現,視覚的魅力,実画像および生成画像の一貫性に対する認識の程度について検討した。
例えば、異なる場所のアノテータは、地理的に代表的であると見なされる領域の誇張されたステレオタイプ的な描写について、しばしば意見が一致しない。
自動評価と人的評価を改善するためのステップを推奨する。
論文 参考訳(メタデータ) (2024-05-07T16:23:06Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Inspecting the Geographical Representativeness of Images from
Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。
国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。
多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文 参考訳(メタデータ) (2023-05-18T16:08:11Z) - Social Biases through the Text-to-Image Generation Lens [9.137275391251517]
テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。
生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。
DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
論文 参考訳(メタデータ) (2023-03-30T05:29:13Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - Easily Accessible Text-to-Image Generation Amplifies Demographic
Stereotypes at Large Scale [61.555788332182395]
危険で複雑なステレオタイプを増幅する機械学習モデルの可能性を検討する。
さまざまな通常のプロンプトがステレオタイプを生成しており、それらは単に特性、記述子、職業、オブジェクトに言及するプロンプトを含む。
論文 参考訳(メタデータ) (2022-11-07T18:31:07Z) - Automatic Main Character Recognition for Photographic Studies [78.88882860340797]
画像の主人公は、最初に見る人の注意を引く最も重要な人間である。
画像中の主文字の同定は,従来の写真研究やメディア分析において重要な役割を担っている。
機械学習に基づく人間のポーズ推定を用いて主文字を識別する手法を提案する。
論文 参考訳(メタデータ) (2021-06-16T18:14:45Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。