論文の概要: DIG In: Evaluating Disparities in Image Generations with Indicators for
Geographic Diversity
- arxiv url: http://arxiv.org/abs/2308.06198v2
- Date: Tue, 15 Aug 2023 16:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 15:49:40.777602
- Title: DIG In: Evaluating Disparities in Image Generations with Indicators for
Geographic Diversity
- Title(参考訳): DIG In:地理多様性指標を用いた画像生成の差異評価
- Authors: Melissa Hall, Candace Ross, Adina Williams, Nicolas Carion, Michal
Drozdzal, Adriana Romero Soriano
- Abstract要約: 本稿では,テキスト・ツー・イメージ生成システムの現実性,多様性,迅速な生成一貫性を評価するための3つの指標を提案する。
モデルがヨーロッパよりもアフリカや西アジアを推し進める場合には、現実主義や世代ごとの多様性が低いことが分かりました。
おそらく最も興味深いのは、画像生成品質の進歩は、現実世界の地理的表現のコストがかかることを示唆している。
- 参考スコア(独自算出の注目度): 26.13557628293311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unprecedented photorealistic results achieved by recent text-to-image
generative systems and their increasing use as plug-and-play content creation
solutions make it crucial to understand their potential biases. In this work,
we introduce three indicators to evaluate the realism, diversity and
prompt-generation consistency of text-to-image generative systems when prompted
to generate objects from across the world. Our indicators complement
qualitative analysis of the broader impact of such systems by enabling
automatic and efficient benchmarking of geographic disparities, an important
step towards building responsible visual content creation systems. We use our
proposed indicators to analyze potential geographic biases in state-of-the-art
visual content creation systems and find that: (1) models have less realism and
diversity of generations when prompting for Africa and West Asia than Europe,
(2) prompting with geographic information comes at a cost to prompt-consistency
and diversity of generated images, and (3) models exhibit more region-level
disparities for some objects than others. Perhaps most interestingly, our
indicators suggest that progress in image generation quality has come at the
cost of real-world geographic representation. Our comprehensive evaluation
constitutes a crucial step towards ensuring a positive experience of visual
content creation for everyone.
- Abstract(参考訳): 最近のテキストから画像への生成システムによって達成された前例のないフォトリアリスティックな結果と、プラグイン・アンド・プレイによるコンテンツ作成ソリューションとしての利用の増加は、彼らの潜在的なバイアスを理解するのに不可欠である。
本研究では,世界からオブジェクトを生成するように促されたテキスト・ツー・イメージ生成システムの現実性,多様性,迅速な生成一貫性を評価するための3つの指標を提案する。
我々の指標は、地理的格差の自動的かつ効率的なベンチマークを可能にすることで、これらのシステムの広範な影響の質的分析を補完する。
提案した指標を用いて,現在最先端のビジュアルコンテンツ生成システムにおける潜在的な地理的バイアスを分析し,(1) モデルがアフリカや西アジアに向けて欧州よりも現実性や世代多様性が低いこと,(2) 地理的情報によって生成した画像の一貫性と多様性の促進にコストがかかること,(3) モデルが他のオブジェクトよりも領域レベルの格差が大きいこと,などを見出した。
おそらく最も興味深いのは、画像生成品質の進歩は、現実世界の地理的表現のコストがかかることを示唆している。
包括的評価は、視覚コンテンツ制作のポジティブな体験を確保するための重要なステップである。
関連論文リスト
- Incorporating Geo-Diverse Knowledge into Prompting for Increased
Geographical Robustness in Object Recognition [26.984695519402557]
対象カテゴリの地理固有の記述的知識は、堅牢性を高めるために活用できることを示す。
そこで本稿では,ソフトプロンプトが未確認対象の地理集合に一般化することを保証するために,地理知識の正規化手法を提案する。
ヨーロッパからのデータでのみ訓練されたモデルから一般化したDolarStreetは、アフリカからの国では+2.8、最も厳しいクラスでは+4.6である。
論文 参考訳(メタデータ) (2024-01-03T01:11:16Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation
Evaluation [96.74302670358145]
生成/編集された画像と対応するプロンプト/インストラクションの整合性を評価するために,視覚概念評価(ViCE)の自動手法を提案する。
ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。
論文 参考訳(メタデータ) (2023-07-18T16:33:30Z) - Inspecting the Geographical Representativeness of Images from
Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。
国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。
多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文 参考訳(メタデータ) (2023-05-18T16:08:11Z) - GeoNet: Benchmarking Unsupervised Adaptation across Geographies [71.23141626803287]
地理的ロバスト性の問題について検討し、3つの主要な貢献を行う。
まず,地理的適応のための大規模データセットGeoNetを紹介する。
第2に、シーンコンテキストにおける大きな変化から、ドメインシフトの主な原因が生じるという仮説を立てる。
第3に、最先端の教師なしドメイン適応アルゴリズムとアーキテクチャを広範囲に評価する。
論文 参考訳(メタデータ) (2023-03-27T17:59:34Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - GIVL: Improving Geographical Inclusivity of Vision-Language Models with
Pre-Training Methods [62.076647211744564]
我々は地理包摂型視覚・言語事前学習モデルであるGIVLを提案する。
1) 類似のカテゴリにおける概念は独自の知識と視覚的特徴を持ち、2) 類似の視覚的特徴を持つ概念は、全く異なるカテゴリに該当する可能性がある。
GIVLは、同様のスケールのデータを事前訓練した類似サイズのモデルと比較して、最先端のSOTA(State-of-the-art)を達成し、ジオディバースなV&Lタスクにおけるよりバランスの取れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-01-05T03:43:45Z) - Fairness Indicators for Systematic Assessments of Visual Feature
Extractors [21.141633753573764]
視覚系の害やバイアスの定量化を目的とした3つの公正度指標を提案する。
我々の指標は、フェアネス評価のために収集された既存の公開データセットを使用する。
これらの指標は、新しいコンピュータビジョン技術による幅広い影響の徹底的な分析の代替にはならない。
論文 参考訳(メタデータ) (2022-02-15T17:45:33Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - City-Scale Visual Place Recognition with Deep Local Features Based on
Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。
まず,視覚的位置認識の包括的分析を行い,その課題を概観する。
次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文 参考訳(メタデータ) (2020-09-19T15:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。