論文の概要: DIG In: Evaluating Disparities in Image Generations with Indicators for
Geographic Diversity
- arxiv url: http://arxiv.org/abs/2308.06198v1
- Date: Fri, 11 Aug 2023 15:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 13:35:35.903541
- Title: DIG In: Evaluating Disparities in Image Generations with Indicators for
Geographic Diversity
- Title(参考訳): DIG In:地理多様性指標を用いた画像生成の差異評価
- Authors: Melissa Hall, Candace Ross, Adina Williams, Nicolas Carion, Michal
Drozdzal, Adriana Romero Soriano
- Abstract要約: 本稿では,テキスト・ツー・イメージ生成システムの現実性,多様性,迅速な生成一貫性を評価するための3つの指標を提案する。
モデルがヨーロッパよりもアフリカや西アジアを推し進める場合には、現実主義や世代ごとの多様性が低いことが分かりました。
おそらく最も興味深いのは、画像生成品質の進歩は、現実世界の地理的表現のコストがかかることを示唆している。
- 参考スコア(独自算出の注目度): 14.794697868158435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unprecedented photorealistic results achieved by recent text-to-image
generative systems and their increasing use as plug-and-play content creation
solutions make it crucial to understand their potential biases. In this work,
we introduce three indicators to evaluate the realism, diversity and
prompt-generation consistency of text-to-image generative systems when prompted
to generate objects from across the world. Our indicators complement
qualitative analysis of the broader impact of such systems by enabling
automatic and efficient benchmarking of geographic disparities, an important
step towards building responsible visual content creation systems. We use our
proposed indicators to analyze potential geographic biases in state-of-the-art
visual content creation systems and find that: (1) models have less realism and
diversity of generations when prompting for Africa and West Asia than Europe,
(2) prompting with geographic information comes at a cost to prompt-consistency
and diversity of generated images, and (3) models exhibit more region-level
disparities for some objects than others. Perhaps most interestingly, our
indicators suggest that progress in image generation quality has come at the
cost of real-world geographic representation. Our comprehensive evaluation
constitutes a crucial step towards ensuring a positive experience of visual
content creation for everyone.
- Abstract(参考訳): 最近のテキストから画像への生成システムによって達成された前例のないフォトリアリスティックな結果と、プラグイン・アンド・プレイによるコンテンツ作成ソリューションとしての利用の増加は、彼らの潜在的なバイアスを理解するのに不可欠である。
本研究では,世界からオブジェクトを生成するように促されたテキスト・ツー・イメージ生成システムの現実性,多様性,迅速な生成一貫性を評価するための3つの指標を提案する。
我々の指標は、地理的格差の自動的かつ効率的なベンチマークを可能にすることで、これらのシステムの広範な影響の質的分析を補完する。
提案した指標を用いて,現在最先端のビジュアルコンテンツ生成システムにおける潜在的な地理的バイアスを分析し,(1) モデルがアフリカや西アジアに向けて欧州よりも現実性や世代多様性が低いこと,(2) 地理的情報によって生成した画像の一貫性と多様性の促進にコストがかかること,(3) モデルが他のオブジェクトよりも領域レベルの格差が大きいこと,などを見出した。
おそらく最も興味深いのは、画像生成品質の進歩は、現実世界の地理的表現のコストがかかることを示唆している。
包括的評価は、視覚コンテンツ制作のポジティブな体験を確保するための重要なステップである。
関連論文リスト
- KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Decomposed evaluations of geographic disparities in text-to-image models [22.491466809896867]
本稿では,画像生成における特徴の分割指標(Decomposed Indicators of Disparities in Image Generation, Decomposed-DIG)を提案する。
Decomposed-DIGを用いて、広く使われている潜伏拡散モデルを評価し、生成した画像が背景よりも写実性の良い物体を描いていることを確認する。
私たちはDecomposed-DIGを使って、アフリカのステレオタイプな背景生成、アフリカの近代的な車両の生成に苦労し、屋外設定にいくつかのオブジェクトを非現実的に配置するなど、相違点の具体例を特定します。
論文 参考訳(メタデータ) (2024-06-17T18:04:23Z) - Improving Geo-diversity of Generated Images with Contextualized Vendi Score Guidance [12.33170407159189]
最先端のテキスト・トゥ・イメージ生成モデルでは、日常の物体を現実世界の真の多様性で描写するのに苦労する。
本稿では, 遅延拡散モデルの後方ステップを導出し, サンプルの多様性を高めるための推論時間介入, 文脈化されたVendi Score Guidance(c-VSG)を導入する。
c-VSGは、画像の品質と一貫性を同時に維持または改善しつつ、最もパフォーマンスの悪い領域と平均の両方において、生成画像の多様性を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-06T23:35:51Z) - Towards Geographic Inclusion in the Evaluation of Text-to-Image Models [25.780536950323683]
我々は,アフリカ,ヨーロッパ,東南アジアにおけるアノテータの地理的表現,視覚的魅力,実画像および生成画像の一貫性に対する認識の程度について検討した。
例えば、異なる場所のアノテータは、地理的に代表的であると見なされる領域の誇張されたステレオタイプ的な描写について、しばしば意見が一致しない。
自動評価と人的評価を改善するためのステップを推奨する。
論文 参考訳(メタデータ) (2024-05-07T16:23:06Z) - Inspecting the Geographical Representativeness of Images from
Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。
国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。
多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文 参考訳(メタデータ) (2023-05-18T16:08:11Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - GIVL: Improving Geographical Inclusivity of Vision-Language Models with
Pre-Training Methods [62.076647211744564]
我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。
1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。
GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-01-05T03:43:45Z) - Fairness Indicators for Systematic Assessments of Visual Feature
Extractors [21.141633753573764]
視覚系の害やバイアスの定量化を目的とした3つの公正度指標を提案する。
我々の指標は、フェアネス評価のために収集された既存の公開データセットを使用する。
これらの指標は、新しいコンピュータビジョン技術による幅広い影響の徹底的な分析の代替にはならない。
論文 参考訳(メタデータ) (2022-02-15T17:45:33Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - City-Scale Visual Place Recognition with Deep Local Features Based on
Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。
まず,視覚的位置認識の包括的分析を行い,その課題を概観する。
次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文 参考訳(メタデータ) (2020-09-19T15:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。