Fugu-MT 論文翻訳(概要): Decomposed evaluations of geographic disparities in text-to-image models

論文の概要: Decomposed evaluations of geographic disparities in text-to-image models

arxiv url: http://arxiv.org/abs/2406.11988v1
Date: Mon, 17 Jun 2024 18:04:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-20 00:26:41.615041
Title: Decomposed evaluations of geographic disparities in text-to-image models
Title（参考訳）: テキスト・画像モデルにおける地理的格差の分解評価
Authors: Abhishek Sureddy, Dishant Padalia, Nandhinee Periyakaruppa, Oindrila Saha, Adina Williams, Adriana Romero-Soriano, Megan Richards, Polina Kirichenko, Melissa Hall,
Abstract要約: 本稿では,画像生成における特徴の分割指標(Decomposed Indicators of Disparities in Image Generation, Decomposed-DIG)を提案する。 Decomposed-DIGを用いて、広く使われている潜伏拡散モデルを評価し、生成した画像が背景よりも写実性の良い物体を描いていることを確認する。私たちはDecomposed-DIGを使って、アフリカのステレオタイプな背景生成、アフリカの近代的な車両の生成に苦労し、屋外設定にいくつかのオブジェクトを非現実的に配置するなど、相違点の具体例を特定します。
参考スコア（独自算出の注目度）: 22.491466809896867
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent work has identified substantial disparities in generated images of different geographic regions, including stereotypical depictions of everyday objects like houses and cars. However, existing measures for these disparities have been limited to either human evaluations, which are time-consuming and costly, or automatic metrics evaluating full images, which are unable to attribute these disparities to specific parts of the generated images. In this work, we introduce a new set of metrics, Decomposed Indicators of Disparities in Image Generation (Decomposed-DIG), that allows us to separately measure geographic disparities in the depiction of objects and backgrounds in generated images. Using Decomposed-DIG, we audit a widely used latent diffusion model and find that generated images depict objects with better realism than backgrounds and that backgrounds in generated images tend to contain larger regional disparities than objects. We use Decomposed-DIG to pinpoint specific examples of disparities, such as stereotypical background generation in Africa, struggling to generate modern vehicles in Africa, and unrealistically placing some objects in outdoor settings. Informed by our metric, we use a new prompting structure that enables a 52% worst-region improvement and a 20% average improvement in generated background diversity.
Abstract（参考訳）: 近年の研究では、家や車といった日常の物体の立体的な描写を含む、異なる地理的領域の生成された画像において、かなりの差異が特定されている。しかし、これらの不一致に対する既存の対策は、時間と費用のかかる人間の評価に限られているか、あるいはフルイメージを評価する自動測定に限られており、これらの不一致は生成された画像の特定の部分に比例できない。本研究では,画像生成における対象と背景の描写における地理的差異を別々に計測することのできる,画像生成における特徴の分解指標(Decomposed Indicators of Disparities in Image Generation, Decomposed-DIG)を提案する。 Decomposed-DIGを用いて、広く使われている潜伏拡散モデルを評価し、生成した画像は背景よりも写実性の良い物体を描写し、生成した画像の背景は物体よりも地域差が大きい傾向があることを発見した。私たちはDecomposed-DIGを使って、アフリカのステレオタイプな背景生成、アフリカの近代的な車両の生成に苦労し、屋外設定にいくつかのオブジェクトを非現実的に配置するなど、相違点の具体例を特定します。測定値にインフォームされた新たなプロンプト構造を用いることで,52%の最低領域改善と,20%のバックグラウンドの多様性向上を実現している。

関連論文リスト

EditScout: Locating Forged Regions from Diffusion-based Edited Images with Multimodal LLM [50.054404519821745]
本稿では,多モーダル大規模言語モデルを統合した新しいフレームワークを提案する。我々のフレームワークはMagicBrush、AutoSplice、PerfBrushデータセットの有望な結果を達成する。特に,本手法は,これまで目に見えなかった種類の編集を特徴とする自己構築型テストセットであるPerfBrushデータセットを最適化する。
論文参考訳（メタデータ） (2024-12-05T02:05:33Z)
Improving Geo-diversity of Generated Images with Contextualized Vendi Score Guidance [12.33170407159189]
最先端のテキスト・トゥ・イメージ生成モデルでは、日常の物体を現実世界の真の多様性で描写するのに苦労する。本稿では, 遅延拡散モデルの後方ステップを導出し, サンプルの多様性を高めるための推論時間介入, 文脈化されたVendi Score Guidance(c-VSG)を導入する。 c-VSGは、画像の品質と一貫性を同時に維持または改善しつつ、最もパフォーマンスの悪い領域と平均の両方において、生成画像の多様性を著しく向上させる。
論文参考訳（メタデータ） (2024-06-06T23:35:51Z)
Towards Geographic Inclusion in the Evaluation of Text-to-Image Models [25.780536950323683]
我々は,アフリカ,ヨーロッパ,東南アジアにおけるアノテータの地理的表現,視覚的魅力,実画像および生成画像の一貫性に対する認識の程度について検討した。例えば、異なる場所のアノテータは、地理的に代表的であると見なされる領域の誇張されたステレオタイプ的な描写について、しばしば意見が一致しない。自動評価と人的評価を改善するためのステップを推奨する。
論文参考訳（メタデータ） (2024-05-07T16:23:06Z)
ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes [64.57705752579207]
本研究では,視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。我々は、画像から画像への変換、画像から画像への変換、および画像から画像への変換モデルの生成機能を利用して、オブジェクトから背景への変換を自動的に生成する。
論文参考訳（メタデータ） (2024-03-07T17:48:48Z)
Classification for everyone : Building geography agnostic models for fairer recognition [0.9558392439655016]
私たちはこのバイアスを2つのデータセット、The Dollar StreetデータセットとImageNetに定量的に提示します。そして、このバイアスを減らすために様々な方法を提示します。
論文参考訳（メタデータ） (2023-12-05T18:41:03Z)
Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-21T08:12:28Z)
Flickr Africa: Examining Geo-Diversity in Large-Scale, Human-Centric Visual Data [3.4022338837261525]
アフリカの各国に関連付けられた地理タグ付きFlickr画像を用いて、大規模な人中心画像の地理的多様性を解析した。欧州の人口適合国と比較して,利用可能なデータの量と内容について報告する。我々は、アフリカからのかなりの数の画像が、非地元の写真家によって撮影されている証拠として、他者現象の発見を提示する。
論文参考訳（メタデータ） (2023-08-16T20:12:01Z)
Inspecting the Geographical Representativeness of Images from Text-to-Image Models [52.80961012689933]
本研究では,27カ国540人の参加者からなるクラウドソーシング調査を用いて,生成された画像の地理的代表性を測定した。国名のない故意に特定されていない入力に対して、生成された画像は、主にアメリカの周囲を反映しており、その後インドが続く。多くの国でのスコアは依然として低いままで、将来のモデルがより地理的に包括的である必要性を強調している。
論文参考訳（メタデータ） (2023-05-18T16:08:11Z)
Mitigating Urban-Rural Disparities in Contrastive Representation Learning with Satellite Imagery [19.93324644519412]
土地被覆の特徴の特定における都市と農村の格差のリスクを考察する。本稿では,畳み込みニューラルネットワークモデルの多レベル潜在空間を非バイアス化する手法として,コントラッシブラーニングを用いた高密度表現(FairDCL)を提案する。得られた画像表現は、下流の都市と農村の予測格差を軽減し、現実の衛星画像の最先端のベースラインを上回ります。
論文参考訳（メタデータ） (2022-11-16T04:59:46Z)
Few-shot Image Generation via Cross-domain Correspondence [98.2263458153041]
限られた例を含む対象領域におけるGANなどの生成モデルの訓練は、容易に過度な適合をもたらす。本研究では,多様性情報をソースからターゲットにプリトレーニングし,転送するために,大きなソースドメインを活用することを目指す。さらに,オーバーフィッティングを減らすために,潜在空間内の異なる領域に対して異なるレベルのリアリズムを奨励するアンカーベースの戦略を提案する。
論文参考訳（メタデータ） (2021-04-13T17:59:35Z)
PhraseCut: Language-based Image Segmentation in the Wild [62.643450401286]
自然言語のフレーズを与えられた画像領域を分割する問題について考察する。私たちのデータセットは、Visual Genomeデータセットの上に収集されます。我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端技術に重大な課題をもたらすことを示している。
論文参考訳（メタデータ） (2020-08-03T20:58:53Z)
Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文参考訳（メタデータ） (2020-02-07T03:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。