論文の概要: Diverse Diffusion: Enhancing Image Diversity in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2310.12583v1
- Date: Thu, 19 Oct 2023 08:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 16:08:21.977730
- Title: Diverse Diffusion: Enhancing Image Diversity in Text-to-Image Generation
- Title(参考訳): 多様な拡散:テキスト対画像生成における画像多様性の強化
- Authors: Mariia Zameshina (LIGM), Olivier Teytaud (TAU), Laurent Najman (LIGM)
- Abstract要約: 画像の多様性をジェンダーや民族を超えて向上させる方法であるDiverse Diffusionを紹介した。
私たちのアプローチは、より包括的で代表的なAI生成アートの作成に寄与します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent diffusion models excel at producing high-quality images from text.
Yet, concerns appear about the lack of diversity in the generated imagery. To
tackle this, we introduce Diverse Diffusion, a method for boosting image
diversity beyond gender and ethnicity, spanning into richer realms, including
color diversity.Diverse Diffusion is a general unsupervised technique that can
be applied to existing text-to-image models. Our approach focuses on finding
vectors in the Stable Diffusion latent space that are distant from each other.
We generate multiple vectors in the latent space until we find a set of vectors
that meets the desired distance requirements and the required batch size.To
evaluate the effectiveness of our diversity methods, we conduct experiments
examining various characteristics, including color diversity, LPIPS metric, and
ethnicity/gender representation in images featuring humans.The results of our
experiments emphasize the significance of diversity in generating realistic and
varied images, offering valuable insights for improving text-to-image models.
Through the enhancement of image diversity, our approach contributes to the
creation of more inclusive and representative AI-generated art.
- Abstract(参考訳): 潜在拡散モデルはテキストから高品質な画像を生成するのに優れている。
しかし、生成した画像の多様性の欠如が懸念されている。
そこで我々は,色多様性を含むより豊かな領域にまたがる,性別や民族を超えた画像の多様性を高める手法である多様性拡散(diversity diffusion)を導入する。
我々のアプローチは、互いに離れている安定拡散潜在空間のベクトルを見つけることに焦点を当てている。
We generate multiple vectors in the latent space until we find a set of vectors that meets the desired distance requirements and the required batch size.To evaluate the effectiveness of our diversity methods, we conduct experiments examining various characteristics, including color diversity, LPIPS metric, and ethnicity/gender representation in images featuring humans.The results of our experiments emphasize the significance of diversity in generating realistic and varied images, offering valuable insights for improving text-to-image models.
画像の多様性の向上を通じて、我々のアプローチはより包括的で代表的なAI生成アートの作成に寄与する。
関連論文リスト
- Generalized People Diversity: Learning a Human Perception-Aligned
Diversity Representation for People Images [11.038712922077458]
本稿では,人間の多様性の概念と柔軟に整合する多様な人物画像ランキング手法を提案する。
The Perception-Aligned Text- derived Human representation Space (PATHS)は、人間に関連する多様性のすべてのまたは多くの特徴を捉えることを目的としている。
論文 参考訳(メタデータ) (2024-01-25T17:19:22Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity
3D Avatar Generation [103.88928334431786]
高品質な3Dアバターを製作するための新しい手法を提案する。
データ生成には事前学習した画像テキスト拡散モデルとGANベースの3次元生成ネットワークを用いて訓練を行う。
提案手法は、生産されたアバターの視覚的品質と多様性の観点から、現在の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-30T13:09:21Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model [76.89932822375208]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。
私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-11-15T17:44:05Z) - Few-shot Image Generation via Masked Discrimination [20.998032566820907]
少ないショット画像生成は、限られたデータで高品質で多彩な画像を生成することを目的としている。
現代のGANでは、ほんの数枚の画像で訓練された場合、過度な適合を避けることは困難である。
本研究は,マスク付き識別による少数ショットGAN適応を実現するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-27T06:02:22Z) - Random Network Distillation as a Diversity Metric for Both Image and
Text Generation [62.13444904851029]
我々は、どんな種類のデータにも、どんな種類のデータにも、自然にも適用できる新しい多様性指標を開発した。
私たちはこのメトリクスを画像とテキストの両方で検証し、デプロイします。
論文 参考訳(メタデータ) (2020-10-13T22:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。