論文の概要: ITI-GEN: Inclusive Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2309.05569v1
- Date: Mon, 11 Sep 2023 15:54:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 11:48:21.893640
- Title: ITI-GEN: Inclusive Text-to-Image Generation
- Title(参考訳): ITI-GEN:包括的テキスト・画像生成
- Authors: Cheng Zhang and Xuanbai Chen and Siqi Chai and Chen Henry Wu and
Dmitry Lagun and Thabo Beeler and Fernando De la Torre
- Abstract要約: 本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
- 参考スコア(独自算出の注目度): 56.72212367905351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generative models often reflect the biases of the training
data, leading to unequal representations of underrepresented groups. This study
investigates inclusive text-to-image generative models that generate images
based on human-written prompts and ensure the resulting images are uniformly
distributed across attributes of interest. Unfortunately, directly expressing
the desired attributes in the prompt often leads to sub-optimal results due to
linguistic ambiguity or model misrepresentation. Hence, this paper proposes a
drastically different approach that adheres to the maxim that "a picture is
worth a thousand words". We show that, for some attributes, images can
represent concepts more expressively than text. For instance, categories of
skin tones are typically hard to specify by text but can be easily represented
by example images. Building upon these insights, we propose a novel approach,
ITI-GEN, that leverages readily available reference images for Inclusive
Text-to-Image GENeration. The key idea is learning a set of prompt embeddings
to generate images that can effectively represent all desired attribute
categories. More importantly, ITI-GEN requires no model fine-tuning, making it
computationally efficient to augment existing text-to-image models. Extensive
experiments demonstrate that ITI-GEN largely improves over state-of-the-art
models to generate inclusive images from a prompt. Project page:
https://czhang0528.github.io/iti-gen.
- Abstract(参考訳): テキストから画像への生成モデルは、しばしばトレーニングデータのバイアスを反映し、未表現のグループの不平等な表現につながる。
本研究では,人書きによるプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討し,得られた画像が興味のある属性に均一に分散されることを確かめる。
残念ながら、望まれる属性を直接プロンプトで表現することは、言語的曖昧さやモデル誤表現によって、しばしば準最適結果をもたらす。
そこで,本論文では,「絵は千語に値する」という大まかに異なるアプローチを提案する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
例えば、スキントーンのカテゴリは通常テキストで指定するのが難しいが、サンプル画像で簡単に表現できる。
これらの知見に基づいて,テキストから画像へのインクルーシブ生成に容易に利用可能な参照画像を活用する新しいアプローチであるiti-genを提案する。
キーとなるアイデアは、一連のプロンプト埋め込みを学習して、すべての望ましい属性カテゴリを効果的に表現できる画像を生成することだ。
さらに重要なことは、ITI-GENはモデル微調整を必要としないため、既存のテキスト・画像モデルを拡張するのに計算効率が良いことである。
大規模な実験により、ITI-GENは最先端モデルよりも大幅に改善され、プロンプトから包括的画像を生成することが示されている。
プロジェクトページ: https://czhang0528.github.io/iti-gen。
関連論文リスト
- Reproducibility Study of "ITI-GEN: Inclusive Text-to-Image Generation" [41.94295877935867]
本研究は,「ITI-GEN:包括的テキスト・トゥ・イメージ・ジェネレーション」で提示された結果を再現することを目的とする。
ITI-GENは、しばしば欲しがらない属性をプロキシの特徴として用いており、性別やハゲネスなど、いくつかの(関連する)属性を分離することができない。
本稿では、学習を必要とせず、バニラ・ハード・プロンプト・サーチよりも否定を処理できる負のプロンプトを用いたハード・プロンプト・サーチを提案する。
論文 参考訳(メタデータ) (2024-07-29T13:27:44Z) - Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。
Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。
本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文 参考訳(メタデータ) (2023-12-27T21:12:21Z) - Word-Level Explanations for Analyzing Bias in Text-to-Image Models [72.71184730702086]
Text-to-image(T2I)モデルは、人種や性別に基づいて少数派を過小評価する画像を生成することができる。
本稿では,入力プロンプトのどの単語が生成画像のバイアスの原因となるかを検討する。
論文 参考訳(メタデータ) (2023-06-03T21:39:07Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。