論文の概要: Reproducibility Study of "ITI-GEN: Inclusive Text-to-Image Generation"
- arxiv url: http://arxiv.org/abs/2407.19996v1
- Date: Mon, 29 Jul 2024 13:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 13:34:43.378133
- Title: Reproducibility Study of "ITI-GEN: Inclusive Text-to-Image Generation"
- Title(参考訳): IIT-GEN:包括的テキスト・画像生成」の再現性の検討
- Authors: Daniel Gallo Fernández, Răzvan-Andrei Matisan, Alejandro Monroy Muñoz, Janusz Partyka,
- Abstract要約: 本研究は,「ITI-GEN:包括的テキスト・トゥ・イメージ・ジェネレーション」で提示された結果を再現することを目的とする。
ITI-GENは、しばしば欲しがらない属性をプロキシの特徴として用いており、性別やハゲネスなど、いくつかの(関連する)属性を分離することができない。
本稿では、学習を必要とせず、バニラ・ハード・プロンプト・サーチよりも否定を処理できる負のプロンプトを用いたハード・プロンプト・サーチを提案する。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text-to-image generative models often present issues regarding fairness with respect to certain sensitive attributes, such as gender or skin tone. This study aims to reproduce the results presented in "ITI-GEN: Inclusive Text-to-Image Generation" by Zhang et al. (2023a), which introduces a model to improve inclusiveness in these kinds of models. We show that most of the claims made by the authors about ITI-GEN hold: it improves the diversity and quality of generated images, it is scalable to different domains, it has plug-and-play capabilities, and it is efficient from a computational point of view. However, ITI-GEN sometimes uses undesired attributes as proxy features and it is unable to disentangle some pairs of (correlated) attributes such as gender and baldness. In addition, when the number of considered attributes increases, the training time grows exponentially and ITI-GEN struggles to generate inclusive images for all elements in the joint distribution. To solve these issues, we propose using Hard Prompt Search with negative prompting, a method that does not require training and that handles negation better than vanilla Hard Prompt Search. Nonetheless, Hard Prompt Search (with or without negative prompting) cannot be used for continuous attributes that are hard to express in natural language, an area where ITI-GEN excels as it is guided by images during training. Finally, we propose combining ITI-GEN and Hard Prompt Search with negative prompting.
- Abstract(参考訳): テキスト・ツー・イメージ生成モデルは、性別や肌のトーンのような特定の繊細な属性に対する公平性に関する問題をしばしば提示する。
本研究は,Zhang et al (2023a) の "ITI-GEN: Inclusive Text-to- Image Generation" で提示された結果を再現することを目的としている。
ITI-GENに関する著者らの主張のほとんどは、生成した画像の多様性と品質を改善し、異なる領域にスケーラブルで、プラグアンドプレイ能力を持ち、計算の観点からは効率的である、というものである。
しかし、ITI-GENは時々、望ましくない属性をプロキシの特徴として使用し、性別やハゲネスなど、いくつかの(関連する)属性を分離することができない。
さらに,検討された属性の数が増えると,トレーニング時間は指数関数的に増加し,ITI-GENは関節分布のすべての要素に対して包括的画像を生成するのに苦労する。
これらの問題を解決するために、我々は、学習を必要とせず、バニラ・ハード・プロンプト・サーチよりも否定をうまく扱う手法である、負のプロンプトを用いたハード・プロンプト・サーチを提案する。
それでも、(負のプロンプトを伴わない)ハードプロンプト検索は、自然言語で表現しにくい連続的な属性には使用できない。
最後に、ITI-GENとHard Prompt Searchを負のプロンプトと組み合わせることを提案する。
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - FairQueue: Rethinking Prompt Learning for Fair Text-to-Image Generation [28.185503858652456]
テキスト・トゥ・イメージ(T2I)生成のための最先端技術(SOTA)として、即時学習が登場している。
そこで本研究では,この素早い学習に基づくアプローチによって,サンプルの品質が劣化することを明らかにする。
品質問題に対処するため, (i) Prompt Queuing と (ii) Attention Amplification の2つのアイデアを提案する。
論文 参考訳(メタデータ) (2024-10-24T10:16:09Z) - Enhancing Multimodal Compositional Reasoning of Visual Language Models
with Generative Negative Mining [58.379339799777064]
大規模視覚言語モデル(VLM)は、強力な表現能力を示し、画像およびテキスト理解タスクを強化するためにユビキタスである。
両方向のマイニングだけでなく,両方向の否定的なサンプルを生成するフレームワークを提案する。
私たちのコードとデータセットはhttps://ugorsahin.github.io/enhancing-multimodal-compositional-reasoning-of-vlm.htmlで公開されています。
論文 参考訳(メタデータ) (2023-11-07T13:05:47Z) - Diversity and Diffusion: Observations on Synthetic Image Distributions
with Stable Diffusion [6.491645162078057]
Text-to-image (TTI)システムにより、単純なテキストプロンプトでリアルな画像を作成することができる。
これまでに行われたすべての実験において、合成画像のみで訓練された分類器は推論時に性能が良くない。
この課題に対するTTIシステムの有用性を制限する4つの問題:曖昧さ、プロンプトへの順守、多様性の欠如、基礎となる概念を表現できないこと。
論文 参考訳(メタデータ) (2023-10-31T18:05:15Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Social Biases through the Text-to-Image Generation Lens [9.137275391251517]
テキスト・トゥ・イメージ(T2I)生成は、プロダクティビティソフトウェアのクリエーター、デザイナ、一般ユーザをサポートする新しいアプリケーションを可能にする。
生成した画像に反映された一般的な社会的偏見の研究と定量化に多次元的アプローチを採用する。
DALLE-v2とStable Diffusionの2つのT2Iモデルについて検討した。
論文 参考訳(メタデータ) (2023-03-30T05:29:13Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - How well can Text-to-Image Generative Models understand Ethical Natural
Language Interventions? [67.97752431429865]
倫理的介入を加える際の画像の多様性への影響について検討した。
予備研究は、モデル予測の大きな変化が「性別の無視」のような特定のフレーズによって引き起こされることを示している。
論文 参考訳(メタデータ) (2022-10-27T07:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。