論文の概要: Analyzing How Text-to-Image Models Represent Nationalities in Everyday Tasks
- arxiv url: http://arxiv.org/abs/2504.06313v1
- Date: Tue, 08 Apr 2025 05:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:07:50.206234
- Title: Analyzing How Text-to-Image Models Represent Nationalities in Everyday Tasks
- Title(参考訳): テキスト・画像モデルが日々の課題における国籍をどのように表すかの分析
- Authors: Abdulkareem Alsudais,
- Abstract要約: 本稿では,T2Iモデルが208の異なる民族の人々をどう表現するかを考察する。
1つのシナリオでは、ほとんどの画像、もう1つのシナリオは、伝統的な服装を身に着けている個人を描いている。
この表現パターンと特定国に関連する地域との間に統計的に有意な関係が認められた。
- 参考スコア(独自算出の注目度): 2.7195102129095003
- License:
- Abstract: The primary objective of this paper is to investigate how a popular Text-to-Image (T2I) model represents people from 208 different nationalities when prompted to generate images of individuals performing typical everyday tasks. Two scenarios were developed, and images were generated based on input prompts that specified nationalities. The results show that in one scenario, the majority of images, and in the other, a substantial portion, depict individuals wearing traditional attire. This suggests that the model emphasizes such characteristics even when they are impractical for the given task. A statistically significant relationship was observed between this representation pattern and the regions associated with the specified countries. This indicates that the issue disproportionately affects certain areas, particularly the Middle East & North Africa and Sub-Saharan Africa. A notable association with income groups was also found. CLIP was used to measure alignment scores between generated images and various prompts and captions. The findings indicate statistically significant higher scores for images featuring individuals in traditional attire in one scenario. The study also examined revised prompts (additional contextual information automatically added to the original input prompts) to assess their potential influence on how individuals are represented in the generated images, finding that the word "traditional" was commonly added to revised prompts. These findings provide valuable insights into how T2I models represent individuals from various countries and highlight potential areas for improvement in future models.
- Abstract(参考訳): 本研究の主な目的は、一般的な日常業務を行う個人の画像を生成するために、208の異なる国籍の人々が、どのようにT2Iモデルによってどのように表現されるかを検討することである。
2つのシナリオが開発され、国籍を指定した入力プロンプトに基づいて画像が生成される。
その結果、1つのシナリオでは、画像の大部分と、もう1つのシナリオでは、かなりの部分が、伝統的な服装を身に着けている個人を描いていることがわかった。
これは、与えられたタスクに対して実用的でない場合でも、モデルがそのような特徴を強調することを示唆している。
この表現パターンと特定国に関連する地域との間に統計的に有意な関係が認められた。
これは、この問題が特定の地域、特に中東と北アフリカ、サハラ以南のアフリカに不均等に影響を及ぼしていることを示している。
また、所得グループとの特筆すべき関連も見つかった。
CLIPは生成された画像と様々なプロンプトとキャプションのアライメントスコアを測定するために使用された。
その結果、1つのシナリオにおいて、伝統的な服装の個人を特徴付ける画像に対して統計的に有意なスコアが得られた。
また、修正プロンプト(元のインプットプロンプトに自動的に付加される追加の文脈情報)を検証し、生成された画像に個人がどのように表現されているかを評価することで、改訂プロンプトに「伝統的」という言葉が一般的に加えられていることを確認する。
これらの知見は、T2Iモデルが各国の個人をどのように表現しているかについての貴重な洞察を与え、将来のモデルの改善の可能性を強調している。
関連論文リスト
- Identifying Implicit Social Biases in Vision-Language Models [34.53206726136747]
我々は、視覚言語モデルに存在する社会的バイアスを体系的に分析する。
CLIPは有害な単語と特定の人口集団の間に望ましくない関連性を示すことが多い。
本研究は,視覚言語モデルにおけるバイアスの評価と対処の重要性を強調した。
論文 参考訳(メタデータ) (2024-11-01T19:41:28Z) - The Factuality Tax of Diversity-Intervened Text-to-Image Generation: Benchmark and Fact-Augmented Intervention [61.80236015147771]
我々は多様性の介入とT2Iモデルにおける人口統計学的事実性とのトレードオフを定量化する。
DoFaiRの実験では、多様性指向の指示によって、性別や人種の異なる集団の数が増加することが明らかになった。
本研究では,歴史における世代ごとのジェンダーや人種構成について,言語化された事実情報を反映したFact-Augmented Intervention (FAI)を提案する。
論文 参考訳(メタデータ) (2024-06-29T09:09:42Z) - Towards Geographic Inclusion in the Evaluation of Text-to-Image Models [25.780536950323683]
我々は,アフリカ,ヨーロッパ,東南アジアにおけるアノテータの地理的表現,視覚的魅力,実画像および生成画像の一貫性に対する認識の程度について検討した。
例えば、異なる場所のアノテータは、地理的に代表的であると見なされる領域の誇張されたステレオタイプ的な描写について、しばしば意見が一致しない。
自動評価と人的評価を改善するためのステップを推奨する。
論文 参考訳(メタデータ) (2024-05-07T16:23:06Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Inspecting the Geographical Representativeness of Images from
Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。
国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。
多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文 参考訳(メタデータ) (2023-05-18T16:08:11Z) - Social Biases through the Text-to-Image Generation Lens [9.137275391251517]
テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。
生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。
DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
論文 参考訳(メタデータ) (2023-03-30T05:29:13Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - Automatic Main Character Recognition for Photographic Studies [78.88882860340797]
画像の主人公は、最初に見る人の注意を引く最も重要な人間である。
画像中の主文字の同定は,従来の写真研究やメディア分析において重要な役割を担っている。
機械学習に基づく人間のポーズ推定を用いて主文字を識別する手法を提案する。
論文 参考訳(メタデータ) (2021-06-16T18:14:45Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。