論文の概要: Improving Geo-diversity of Generated Images with Contextualized Vendi Score Guidance
- arxiv url: http://arxiv.org/abs/2406.04551v1
- Date: Thu, 6 Jun 2024 23:35:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 17:47:54.344636
- Title: Improving Geo-diversity of Generated Images with Contextualized Vendi Score Guidance
- Title(参考訳): コンテクスト化されたベンディスコア誘導による生成画像のジオ多様性向上
- Authors: Reyhane Askari Hemmat, Melissa Hall, Alicia Sun, Candace Ross, Michal Drozdzal, Adriana Romero-Soriano,
- Abstract要約: 最先端のテキスト・トゥ・イメージ生成モデルでは、日常の物体を現実世界の真の多様性で描写するのに苦労する。
本稿では, 遅延拡散モデルの後方ステップを導出し, サンプルの多様性を高めるための推論時間介入, 文脈化されたVendi Score Guidance(c-VSG)を導入する。
c-VSGは、画像の品質と一貫性を同時に維持または改善しつつ、最もパフォーマンスの悪い領域と平均の両方において、生成画像の多様性を著しく向上させる。
- 参考スコア(独自算出の注目度): 12.33170407159189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing popularity of text-to-image generative models, there has been increasing focus on understanding their risks and biases. Recent work has found that state-of-the-art models struggle to depict everyday objects with the true diversity of the real world and have notable gaps between geographic regions. In this work, we aim to increase the diversity of generated images of common objects such that per-region variations are representative of the real world. We introduce an inference time intervention, contextualized Vendi Score Guidance (c-VSG), that guides the backwards steps of latent diffusion models to increase the diversity of a sample as compared to a "memory bank" of previously generated images while constraining the amount of variation within that of an exemplar set of real-world contextualizing images. We evaluate c-VSG with two geographically representative datasets and find that it substantially increases the diversity of generated images, both for the worst performing regions and on average, while simultaneously maintaining or improving image quality and consistency. Additionally, qualitative analyses reveal that diversity of generated images is significantly improved, including along the lines of reductive region portrayals present in the original model. We hope that this work is a step towards text-to-image generative models that reflect the true geographic diversity of the world.
- Abstract(参考訳): テキストから画像への生成モデルの人気が高まり、リスクやバイアスを理解することに焦点が当てられている。
近年の研究では、最先端のモデルでは、日常の物体を現実世界の真の多様性で表現し、地理的領域間に顕著なギャップがあることが判明している。
本研究では,地域ごとの変動が実世界の代表となるような共通オブジェクトの生成画像の多様性を高めることを目的としている。
本稿では,従来の画像の「メモリバンク」と比較して,遅延拡散モデルの逆方向ステップを誘導し,サンプルの多様性を増大させるとともに,実世界の文脈化画像群の内部の変動量を制約する,推論時間介入(contextualized Vendi Score Guidance,c-VSG)を導入する。
地理的に代表される2つのデータセットを用いてc-VSGを評価し、画像の品質と一貫性を同時に維持・改善しつつ、最もパフォーマンスの悪い領域と平均の両方において、生成された画像の多様性を著しく向上させることを示した。
さらに、定性的分析により、原モデルに存在する還元領域の描写行を含む、生成画像の多様性が著しく改善されていることが明らかとなった。
この研究が、世界の真の地理的多様性を反映した、テキストから画像への生成モデルへの一歩になることを願っています。
関連論文リスト
- Saliency-Based diversity and fairness Metric and FaceKeepOriginalAugment: A Novel Approach for Enhancing Fairness and Diversity [46.74201905814679]
我々は、地理、性別、ステレオタイプによるコンピュータビジョンモデルにおける様々な偏見を探索する、FaceKeepOriginalAugmentと呼ばれるKeepOriginalAugment法の拡張を導入する。
データ多様性と情報保存の微妙なバランスを維持することによって、当社のアプローチは、多様な正当性と非正当性の両方を活用するモデルに力を与える。
Flickr Faces HQ(FFHQ)、WIKI、IMDB、Labelled Faces in the Wild(LFW)、UTK Faces、Diverseデータセットなど、さまざまなデータセットのデータセットの多様性を定量化しています。
論文 参考訳(メタデータ) (2024-10-29T13:49:23Z) - Decomposed evaluations of geographic disparities in text-to-image models [22.491466809896867]
本稿では,画像生成における特徴の分割指標(Decomposed Indicators of Disparities in Image Generation, Decomposed-DIG)を提案する。
Decomposed-DIGを用いて、広く使われている潜伏拡散モデルを評価し、生成した画像が背景よりも写実性の良い物体を描いていることを確認する。
私たちはDecomposed-DIGを使って、アフリカのステレオタイプな背景生成、アフリカの近代的な車両の生成に苦労し、屋外設定にいくつかのオブジェクトを非現実的に配置するなど、相違点の具体例を特定します。
論文 参考訳(メタデータ) (2024-06-17T18:04:23Z) - Consistency-diversity-realism Pareto fronts of conditional image generative models [22.372033071088424]
我々は、最先端のテキスト・ツー・イメージモデルと画像・アンド・テキスト・ツー・イメージモデルとそのノブを使用して、一貫性の多様性-リアリズムをParetoフロントに描画する。
我々の実験は、リアリズムと一貫性を同時に改善できることを示唆している。
我々の分析は、最良のモデルが存在しず、ダウンストリームアプリケーションによってモデルの選択が決定されるべきであることを示している。
論文 参考訳(メタデータ) (2024-06-14T22:14:11Z) - Diverse Diffusion: Enhancing Image Diversity in Text-to-Image Generation [0.0]
画像の多様性をジェンダーや民族を超えて向上させる方法であるDiverse Diffusionを紹介した。
私たちのアプローチは、より包括的で代表的なAI生成アートの作成に寄与します。
論文 参考訳(メタデータ) (2023-10-19T08:48:23Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - DIG In: Evaluating Disparities in Image Generations with Indicators for Geographic Diversity [24.887571095245313]
本稿では,テキスト・ツー・イメージ生成システムの現実性,多様性,迅速な生成一貫性を評価するための3つの指標を提案する。
モデルがヨーロッパよりもアフリカや西アジアを推し進める場合には、現実主義や世代ごとの多様性が低いことが分かりました。
おそらく最も興味深いのは、画像生成品質の進歩は、現実世界の地理的表現のコストがかかることを示唆している。
論文 参考訳(メタデータ) (2023-08-11T15:43:37Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Few-shot Image Generation via Cross-domain Correspondence [98.2263458153041]
限られた例を含む対象領域におけるGANなどの生成モデルの訓練は、容易に過度な適合をもたらす。
本研究では,多様性情報をソースからターゲットにプリトレーニングし,転送するために,大きなソースドメインを活用することを目指す。
さらに,オーバーフィッティングを減らすために,潜在空間内の異なる領域に対して異なるレベルのリアリズムを奨励するアンカーベースの戦略を提案する。
論文 参考訳(メタデータ) (2021-04-13T17:59:35Z) - Random Network Distillation as a Diversity Metric for Both Image and
Text Generation [62.13444904851029]
我々は、どんな種類のデータにも、どんな種類のデータにも、自然にも適用できる新しい多様性指標を開発した。
私たちはこのメトリクスを画像とテキストの両方で検証し、デプロイします。
論文 参考訳(メタデータ) (2020-10-13T22:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。