論文の概要: Inspecting the Geographical Representativeness of Images from
Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2305.11080v1
- Date: Thu, 18 May 2023 16:08:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:07:08.843392
- Title: Inspecting the Geographical Representativeness of Images from
Text-to-Image Models
- Title(参考訳): テキスト-画像モデルによる画像の地理的代表性の検討
- Authors: Abhipsa Basu, R. Venkatesh Babu and Danish Pruthi
- Abstract要約: 本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。
国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。
多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
- 参考スコア(独自算出の注目度): 52.80961012689933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in generative models has resulted in models that produce both
realistic as well as relevant images for most textual inputs. These models are
being used to generate millions of images everyday, and hold the potential to
drastically impact areas such as generative art, digital marketing and data
augmentation. Given their outsized impact, it is important to ensure that the
generated content reflects the artifacts and surroundings across the globe,
rather than over-representing certain parts of the world. In this paper, we
measure the geographical representativeness of common nouns (e.g., a house)
generated through DALL.E 2 and Stable Diffusion models using a crowdsourced
study comprising 540 participants across 27 countries. For deliberately
underspecified inputs without country names, the generated images most reflect
the surroundings of the United States followed by India, and the top
generations rarely reflect surroundings from all other countries (average score
less than 3 out of 5). Specifying the country names in the input increases the
representativeness by 1.44 points on average for DALL.E 2 and 0.75 for Stable
Diffusion, however, the overall scores for many countries still remain low,
highlighting the need for future models to be more geographically inclusive.
Lastly, we examine the feasibility of quantifying the geographical
representativeness of generated images without conducting user studies.
- Abstract(参考訳): 生成モデルの最近の進歩は、ほとんどのテキスト入力に対して、現実的かつ関連する画像を生成するモデルを生み出している。
これらのモデルは、毎日何百万もの画像を生成するために使われており、生成芸術、デジタルマーケティング、データ拡張といった領域に大きな影響を与える可能性を秘めている。
大きすぎる影響を考えると、生成したコンテンツが世界の特定の部分を過剰に表現するのではなく、世界中のアーティファクトや周囲を反映していることが重要です。
本稿では,27カ国540人の参加者からなるクラウドソーシング研究を用いて,DALL.E2および安定拡散モデルを用いて生成した共通名詞(例えば,家)の地理的代表性を測定する。
国名のない意図的な入力では、生成された画像は、主にアメリカの周囲を反映しており、上位世代は他国からの周囲を反映している(平均スコアは5点中3点以下)。
入力に国名を指定すると、dall.e 2 と 0.75 では平均で 1.44 ポイント上昇するが、多くの国では依然としてスコアが低く、将来のモデルがより地理的に包括的であることの必要性が強調される。
最後に,ユーザ研究を行うことなく,生成画像の地理的代表性を定量化する可能性について検討する。
関連論文リスト
- Stable Rivers: A Case Study in the Application of Text-to-Image
Generative Models for Earth Sciences [0.0]
テキスト・ツー・イメージ(TTI)生成モデルは、与えられたテキストストリング入力から画像を生成するために使用できる。
安定拡散のトレーニングデータとモデル性能における被検領域比のバイアスについて検討した。
その結果, 有名な河川や滝などの景観を過度に表現し, 形態的・環境的条件の過度に表現できることが判明した。
論文 参考訳(メタデータ) (2023-12-13T01:40:21Z) - Flickr Africa: Examining Geo-Diversity in Large-Scale, Human-Centric
Visual Data [3.4022338837261525]
アフリカの各国に関連付けられた地理タグ付きFlickr画像を用いて、大規模な人中心画像の地理的多様性を解析した。
欧州の人口適合国と比較して,利用可能なデータの量と内容について報告する。
我々は、アフリカからのかなりの数の画像が、非地元の写真家によって撮影されている証拠として、他者現象の発見を提示する。
論文 参考訳(メタデータ) (2023-08-16T20:12:01Z) - DIG In: Evaluating Disparities in Image Generations with Indicators for
Geographic Diversity [26.13557628293311]
本稿では,テキスト・ツー・イメージ生成システムの現実性,多様性,迅速な生成一貫性を評価するための3つの指標を提案する。
モデルがヨーロッパよりもアフリカや西アジアを推し進める場合には、現実主義や世代ごとの多様性が低いことが分かりました。
おそらく最も興味深いのは、画像生成品質の進歩は、現実世界の地理的表現のコストがかかることを示唆している。
論文 参考訳(メタデータ) (2023-08-11T15:43:37Z) - Does Progress On Object Recognition Benchmarks Improve Real-World
Generalization? [9.906591021385303]
ImageNet-A、-C、-Rのようなイメージネットベースの一般化ベンチマークでは、10年以上オブジェクト認識の進歩が測定されている。
膨大なデータに基づいて訓練された基礎モデルの最近の進歩は、これらの標準ベンチマークを飽和させ始めているが、実際には不安定なままである。
本研究では,世界各国の家庭から得られた2つのオブジェクトのデータセットを用いて,より現実的な進捗の指標として,地理横断の一般化について検討する。
論文 参考訳(メタデータ) (2023-07-24T21:29:48Z) - Social Biases through the Text-to-Image Generation Lens [9.137275391251517]
テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。
生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。
DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
論文 参考訳(メタデータ) (2023-03-30T05:29:13Z) - Human Image Generation: A Comprehensive Survey [60.63589576693112]
本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。
異なる手法の利点と特徴は、モデルアーキテクチャと入出力要求の観点から要約される。
幅広い応用可能性のために、合成された人間の画像の典型的なダウンストリーム利用、すなわち、個人認識タスクのためのデータ拡張と、ファッション顧客のためのバーチャルトライオンの2つがカバーされている。
論文 参考訳(メタデータ) (2022-12-17T15:19:45Z) - Activation Regression for Continuous Domain Generalization with
Applications to Crop Classification [48.795866501365694]
衛星画像の地理的変異は、機械学習モデルが新しい領域に一般化する能力に影響を与える。
中分解能ランドサット8衛星画像の地理的一般化を連続領域適応問題としてモデル化する。
我々は,アメリカ大陸全域に空間分布するデータセットを開発した。
論文 参考訳(メタデータ) (2022-04-14T15:41:39Z) - There is a Time and Place for Reasoning Beyond the Image [63.96498435923328]
画像は人間の目へのピクセルだけでなく、他のソースからのコンテキスト情報から推論、関連付け、推論して、推論することで、より完全な画像を確立することができる。
我々は、ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース、時間、位置のデータセットTARAと、WITから離れた監視対象として追加で61k例を紹介した。
我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップがあることを示し、これは、セグメントワイズ推論を用いて高レベルな視覚言語ジョイントモデルを動機づける提案モデルによってわずかに満たされている。
論文 参考訳(メタデータ) (2022-03-01T21:52:08Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - Predicting Livelihood Indicators from Community-Generated Street-Level
Imagery [70.5081240396352]
本稿では,クラウドソースによるストリートレベルの画像から重要な生活指標を予測するための,安価でスケーラブルで解釈可能なアプローチを提案する。
全国的に代表される世帯調査で収集した地上データと比較することにより,貧困,人口,健康の指標を正確に予測する上でのアプローチの有効性を実証した。
論文 参考訳(メタデータ) (2020-06-15T18:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。