Fugu-MT 論文翻訳(概要): Inspecting the Geographical Representativeness of Images from Text-to-Image Models

論文の概要: Inspecting the Geographical Representativeness of Images from Text-to-Image Models

arxiv url: http://arxiv.org/abs/2305.11080v1
Date: Thu, 18 May 2023 16:08:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-19 14:07:08.843392
Title: Inspecting the Geographical Representativeness of Images from Text-to-Image Models
Title（参考訳）: テキスト-画像モデルによる画像の地理的代表性の検討
Authors: Abhipsa Basu, R. Venkatesh Babu and Danish Pruthi
Abstract要約: 本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
参考スコア（独自算出の注目度）: 52.80961012689933
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent progress in generative models has resulted in models that produce both realistic as well as relevant images for most textual inputs. These models are being used to generate millions of images everyday, and hold the potential to drastically impact areas such as generative art, digital marketing and data augmentation. Given their outsized impact, it is important to ensure that the generated content reflects the artifacts and surroundings across the globe, rather than over-representing certain parts of the world. In this paper, we measure the geographical representativeness of common nouns (e.g., a house) generated through DALL.E 2 and Stable Diffusion models using a crowdsourced study comprising 540 participants across 27 countries. For deliberately underspecified inputs without country names, the generated images most reflect the surroundings of the United States followed by India, and the top generations rarely reflect surroundings from all other countries (average score less than 3 out of 5). Specifying the country names in the input increases the representativeness by 1.44 points on average for DALL.E 2 and 0.75 for Stable Diffusion, however, the overall scores for many countries still remain low, highlighting the need for future models to be more geographically inclusive. Lastly, we examine the feasibility of quantifying the geographical representativeness of generated images without conducting user studies.
Abstract（参考訳）: 生成モデルの最近の進歩は、ほとんどのテキスト入力に対して、現実的かつ関連する画像を生成するモデルを生み出している。これらのモデルは、毎日何百万もの画像を生成するために使われており、生成芸術、デジタルマーケティング、データ拡張といった領域に大きな影響を与える可能性を秘めている。大きすぎる影響を考えると、生成したコンテンツが世界の特定の部分を過剰に表現するのではなく、世界中のアーティファクトや周囲を反映していることが重要です。本稿では,27カ国540人の参加者からなるクラウドソーシング研究を用いて,DALL.E2および安定拡散モデルを用いて生成した共通名詞(例えば,家)の地理的代表性を測定する。国名のない意図的な入力では、生成された画像は、主にアメリカの周囲を反映しており、上位世代は他国からの周囲を反映している(平均スコアは5点中3点以下)。入力に国名を指定すると、dall.e 2 と 0.75 では平均で 1.44 ポイント上昇するが、多くの国では依然としてスコアが低く、将来のモデルがより地理的に包括的であることの必要性が強調される。最後に,ユーザ研究を行うことなく,生成画像の地理的代表性を定量化する可能性について検討する。

関連論文リスト

Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales [61.03549470159347]
視覚言語モデル (VLM) は急速に進歩しているが, オープンワールド環境における画像位置決め能力は, 網羅的に評価されていない。我々は、視覚認識、ステップバイステップ推論、エビデンス利用を評価するVLM画像位置情報の総合ベンチマークであるEarthWhereを提示する。
論文参考訳（メタデータ） (2025-10-13T01:12:21Z)
Text-to-Image Models and Their Representation of People from Different Nationalities Engaging in Activities [2.7195102129095003]
1つのシナリオでは、ほとんどの画像、もう1つのシナリオは、伝統的な服装を身に着けている個人を描いている。この表現パターンと特定国に関連する地域との間に統計的に有意な関係が認められた。これは、この問題が特定の地域、特に中東と北アフリカ、サハラ以南のアフリカに不均等に影響を及ぼしていることを示している。
論文参考訳（メタデータ） (2025-04-08T05:37:06Z)
Decomposed evaluations of geographic disparities in text-to-image models [22.491466809896867]
本稿では,画像生成における特徴の分割指標(Decomposed Indicators of Disparities in Image Generation, Decomposed-DIG)を提案する。 Decomposed-DIGを用いて、広く使われている潜伏拡散モデルを評価し、生成した画像が背景よりも写実性の良い物体を描いていることを確認する。私たちはDecomposed-DIGを使って、アフリカのステレオタイプな背景生成、アフリカの近代的な車両の生成に苦労し、屋外設定にいくつかのオブジェクトを非現実的に配置するなど、相違点の具体例を特定します。
論文参考訳（メタデータ） (2024-06-17T18:04:23Z)
You are what you eat? Feeding foundation models a regionally diverse food dataset of World Wide Dishes [3.1402605498916514]
765の料理からなる混合テキストと画像データセットであるWorld Wide Dishesを131の地方言語で収集した。本稿では,言語モデルやテキスト・ツー・イメージ生成モデルといった基礎モデルにおいて,機能と表現バイアスを運用する新たな方法を示す。これらのモデルは、一般的に、異なる地域固有の料理の質の高いテキストや画像の出力を生成しない。
論文参考訳（メタデータ） (2024-06-13T18:00:00Z)
Improving Geo-diversity of Generated Images with Contextualized Vendi Score Guidance [12.33170407159189]
最先端のテキスト・トゥ・イメージ生成モデルでは、日常の物体を現実世界の真の多様性で描写するのに苦労する。本稿では, 遅延拡散モデルの後方ステップを導出し, サンプルの多様性を高めるための推論時間介入, 文脈化されたVendi Score Guidance(c-VSG)を導入する。 c-VSGは、画像の品質と一貫性を同時に維持または改善しつつ、最もパフォーマンスの悪い領域と平均の両方において、生成画像の多様性を著しく向上させる。
論文参考訳（メタデータ） (2024-06-06T23:35:51Z)
Towards Geographic Inclusion in the Evaluation of Text-to-Image Models [25.780536950323683]
我々は,アフリカ,ヨーロッパ,東南アジアにおけるアノテータの地理的表現,視覚的魅力,実画像および生成画像の一貫性に対する認識の程度について検討した。例えば、異なる場所のアノテータは、地理的に代表的であると見なされる領域の誇張されたステレオタイプ的な描写について、しばしば意見が一致しない。自動評価と人的評価を改善するためのステップを推奨する。
論文参考訳（メタデータ） (2024-05-07T16:23:06Z)
Flickr Africa: Examining Geo-Diversity in Large-Scale, Human-Centric Visual Data [3.4022338837261525]
アフリカの各国に関連付けられた地理タグ付きFlickr画像を用いて、大規模な人中心画像の地理的多様性を解析した。欧州の人口適合国と比較して,利用可能なデータの量と内容について報告する。我々は、アフリカからのかなりの数の画像が、非地元の写真家によって撮影されている証拠として、他者現象の発見を提示する。
論文参考訳（メタデータ） (2023-08-16T20:12:01Z)
Social Biases through the Text-to-Image Generation Lens [9.137275391251517]
テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。 DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
論文参考訳（メタデータ） (2023-03-30T05:29:13Z)
Activation Regression for Continuous Domain Generalization with Applications to Crop Classification [48.795866501365694]
衛星画像の地理的変異は、機械学習モデルが新しい領域に一般化する能力に影響を与える。中分解能ランドサット8衛星画像の地理的一般化を連続領域適応問題としてモデル化する。我々は,アメリカ大陸全域に空間分布するデータセットを開発した。
論文参考訳（メタデータ） (2022-04-14T15:41:39Z)
There is a Time and Place for Reasoning Beyond the Image [63.96498435923328]
画像は人間の目へのピクセルだけでなく、他のソースからのコンテキスト情報から推論、関連付け、推論して、推論することで、より完全な画像を確立することができる。我々は、ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース、時間、位置のデータセットTARAと、WITから離れた監視対象として追加で61k例を紹介した。我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップがあることを示し、これは、セグメントワイズ推論を用いて高レベルな視覚言語ジョイントモデルを動機づける提案モデルによってわずかに満たされている。
論文参考訳（メタデータ） (2022-03-01T21:52:08Z)
DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文参考訳（メタデータ） (2022-02-08T18:36:52Z)
Generating Physically-Consistent Satellite Imagery for Climate Visualizations [53.61991820941501]
我々は,将来的な洪水や森林再生イベントの合成衛星画像を作成するために,生成的敵ネットワークを訓練する。純粋なディープラーニングベースのモデルでは、洪水の可視化を生成することができるが、洪水の影響を受けない場所では幻覚的な洪水が発生する。我々は,地球観測におけるセグメンテーションガイドによる画像と画像の変換のためのコードとデータセットを公開している。
論文参考訳（メタデータ） (2021-04-10T15:00:15Z)
Predicting Livelihood Indicators from Community-Generated Street-Level Imagery [70.5081240396352]
本稿では,クラウドソースによるストリートレベルの画像から重要な生活指標を予測するための,安価でスケーラブルで解釈可能なアプローチを提案する。全国的に代表される世帯調査で収集した地上データと比較することにより,貧困,人口,健康の指標を正確に予測する上でのアプローチの有効性を実証した。
論文参考訳（メタデータ） (2020-06-15T18:12:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。