論文の概要: Inspecting the Geographical Representativeness of Images from
Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2305.11080v1
- Date: Thu, 18 May 2023 16:08:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:07:08.843392
- Title: Inspecting the Geographical Representativeness of Images from
Text-to-Image Models
- Title(参考訳): テキスト-画像モデルによる画像の地理的代表性の検討
- Authors: Abhipsa Basu, R. Venkatesh Babu and Danish Pruthi
- Abstract要約: 本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。
国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。
多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
- 参考スコア(独自算出の注目度): 52.80961012689933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in generative models has resulted in models that produce both
realistic as well as relevant images for most textual inputs. These models are
being used to generate millions of images everyday, and hold the potential to
drastically impact areas such as generative art, digital marketing and data
augmentation. Given their outsized impact, it is important to ensure that the
generated content reflects the artifacts and surroundings across the globe,
rather than over-representing certain parts of the world. In this paper, we
measure the geographical representativeness of common nouns (e.g., a house)
generated through DALL.E 2 and Stable Diffusion models using a crowdsourced
study comprising 540 participants across 27 countries. For deliberately
underspecified inputs without country names, the generated images most reflect
the surroundings of the United States followed by India, and the top
generations rarely reflect surroundings from all other countries (average score
less than 3 out of 5). Specifying the country names in the input increases the
representativeness by 1.44 points on average for DALL.E 2 and 0.75 for Stable
Diffusion, however, the overall scores for many countries still remain low,
highlighting the need for future models to be more geographically inclusive.
Lastly, we examine the feasibility of quantifying the geographical
representativeness of generated images without conducting user studies.
- Abstract(参考訳): 生成モデルの最近の進歩は、ほとんどのテキスト入力に対して、現実的かつ関連する画像を生成するモデルを生み出している。
これらのモデルは、毎日何百万もの画像を生成するために使われており、生成芸術、デジタルマーケティング、データ拡張といった領域に大きな影響を与える可能性を秘めている。
大きすぎる影響を考えると、生成したコンテンツが世界の特定の部分を過剰に表現するのではなく、世界中のアーティファクトや周囲を反映していることが重要です。
本稿では,27カ国540人の参加者からなるクラウドソーシング研究を用いて,DALL.E2および安定拡散モデルを用いて生成した共通名詞(例えば,家)の地理的代表性を測定する。
国名のない意図的な入力では、生成された画像は、主にアメリカの周囲を反映しており、上位世代は他国からの周囲を反映している(平均スコアは5点中3点以下)。
入力に国名を指定すると、dall.e 2 と 0.75 では平均で 1.44 ポイント上昇するが、多くの国では依然としてスコアが低く、将来のモデルがより地理的に包括的であることの必要性が強調される。
最後に,ユーザ研究を行うことなく,生成画像の地理的代表性を定量化する可能性について検討する。
関連論文リスト
- Decomposed evaluations of geographic disparities in text-to-image models [22.491466809896867]
本稿では,画像生成における特徴の分割指標(Decomposed Indicators of Disparities in Image Generation, Decomposed-DIG)を提案する。
Decomposed-DIGを用いて、広く使われている潜伏拡散モデルを評価し、生成した画像が背景よりも写実性の良い物体を描いていることを確認する。
私たちはDecomposed-DIGを使って、アフリカのステレオタイプな背景生成、アフリカの近代的な車両の生成に苦労し、屋外設定にいくつかのオブジェクトを非現実的に配置するなど、相違点の具体例を特定します。
論文 参考訳(メタデータ) (2024-06-17T18:04:23Z) - You are what you eat? Feeding foundation models a regionally diverse food dataset of World Wide Dishes [3.1402605498916514]
765の料理からなる混合テキストと画像データセットであるWorld Wide Dishesを131の地方言語で収集した。
本稿では,言語モデルやテキスト・ツー・イメージ生成モデルといった基礎モデルにおいて,機能と表現バイアスを運用する新たな方法を示す。
これらのモデルは、一般的に、異なる地域固有の料理の質の高いテキストや画像の出力を生成しない。
論文 参考訳(メタデータ) (2024-06-13T18:00:00Z) - Improving Geo-diversity of Generated Images with Contextualized Vendi Score Guidance [12.33170407159189]
最先端のテキスト・トゥ・イメージ生成モデルでは、日常の物体を現実世界の真の多様性で描写するのに苦労する。
本稿では, 遅延拡散モデルの後方ステップを導出し, サンプルの多様性を高めるための推論時間介入, 文脈化されたVendi Score Guidance(c-VSG)を導入する。
c-VSGは、画像の品質と一貫性を同時に維持または改善しつつ、最もパフォーマンスの悪い領域と平均の両方において、生成画像の多様性を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-06T23:35:51Z) - Flickr Africa: Examining Geo-Diversity in Large-Scale, Human-Centric
Visual Data [3.4022338837261525]
アフリカの各国に関連付けられた地理タグ付きFlickr画像を用いて、大規模な人中心画像の地理的多様性を解析した。
欧州の人口適合国と比較して,利用可能なデータの量と内容について報告する。
我々は、アフリカからのかなりの数の画像が、非地元の写真家によって撮影されている証拠として、他者現象の発見を提示する。
論文 参考訳(メタデータ) (2023-08-16T20:12:01Z) - Social Biases through the Text-to-Image Generation Lens [9.137275391251517]
テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。
生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。
DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
論文 参考訳(メタデータ) (2023-03-30T05:29:13Z) - Activation Regression for Continuous Domain Generalization with
Applications to Crop Classification [48.795866501365694]
衛星画像の地理的変異は、機械学習モデルが新しい領域に一般化する能力に影響を与える。
中分解能ランドサット8衛星画像の地理的一般化を連続領域適応問題としてモデル化する。
我々は,アメリカ大陸全域に空間分布するデータセットを開発した。
論文 参考訳(メタデータ) (2022-04-14T15:41:39Z) - There is a Time and Place for Reasoning Beyond the Image [63.96498435923328]
画像は人間の目へのピクセルだけでなく、他のソースからのコンテキスト情報から推論、関連付け、推論して、推論することで、より完全な画像を確立することができる。
我々は、ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース、時間、位置のデータセットTARAと、WITから離れた監視対象として追加で61k例を紹介した。
我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップがあることを示し、これは、セグメントワイズ推論を用いて高レベルな視覚言語ジョイントモデルを動機づける提案モデルによってわずかに満たされている。
論文 参考訳(メタデータ) (2022-03-01T21:52:08Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - Generating Physically-Consistent Satellite Imagery for Climate Visualizations [53.61991820941501]
我々は,将来的な洪水や森林再生イベントの合成衛星画像を作成するために,生成的敵ネットワークを訓練する。
純粋なディープラーニングベースのモデルでは、洪水の可視化を生成することができるが、洪水の影響を受けない場所では幻覚的な洪水が発生する。
我々は,地球観測におけるセグメンテーションガイドによる画像と画像の変換のためのコードとデータセットを公開している。
論文 参考訳(メタデータ) (2021-04-10T15:00:15Z) - Predicting Livelihood Indicators from Community-Generated Street-Level
Imagery [70.5081240396352]
本稿では,クラウドソースによるストリートレベルの画像から重要な生活指標を予測するための,安価でスケーラブルで解釈可能なアプローチを提案する。
全国的に代表される世帯調査で収集した地上データと比較することにより,貧困,人口,健康の指標を正確に予測する上でのアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2020-06-15T18:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。