論文の概要: It is all about where you start: Text-to-image generation with seed
selection
- arxiv url: http://arxiv.org/abs/2304.14530v1
- Date: Thu, 27 Apr 2023 20:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 15:45:01.293253
- Title: It is all about where you start: Text-to-image generation with seed
selection
- Title(参考訳): どこから始めるかがすべてだ:シード選択によるテキストから画像生成
- Authors: Dvir Samuel, Rami Ben-Ari, Simon Raviv, Nir Darshan, Gal Chechik
- Abstract要約: ノイズ空間内で適切な生成種を慎重に選択することで、稀な概念を正しく生成できることが示される。
SeedSelectは効率的で、拡散モデルの再トレーニングを必要としない。
拡散モデルの訓練データの頭と尾の両方から,全てのクラスに分類の改善を示す。
- 参考スコア(独自算出の注目度): 23.192891125121374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models can synthesize a large variety of concepts in
new compositions and scenarios. However, they still struggle with generating
uncommon concepts, rare unusual combinations, or structured concepts like hand
palms. Their limitation is partly due to the long-tail nature of their training
data: web-crawled data sets are strongly unbalanced, causing models to
under-represent concepts from the tail of the distribution. Here we
characterize the effect of unbalanced training data on text-to-image models and
offer a remedy. We show that rare concepts can be correctly generated by
carefully selecting suitable generation seeds in the noise space, a technique
that we call SeedSelect. SeedSelect is efficient and does not require
retraining the diffusion model. We evaluate the benefit of SeedSelect on a
series of problems. First, in few-shot semantic data augmentation, where we
generate semantically correct images for few-shot and long-tail benchmarks. We
show classification improvement on all classes, both from the head and tail of
the training data of diffusion models. We further evaluate SeedSelect on
correcting images of hands, a well-known pitfall of current diffusion models,
and show that it improves hand generation substantially.
- Abstract(参考訳): テキストから画像への拡散モデルは、新しい構成やシナリオで様々な概念を合成することができる。
しかし、珍しい組み合わせや手のひらのような構造的な概念を創り出すのに依然として苦労している。
ウェブcrawledデータセットは強いアンバランスであり、モデルが分布の尾から概念を過小評価する原因となっている。
ここでは、不均衡なトレーニングデータのテキスト対画像モデルへの影響を特徴付け、修正を提供する。
ノイズ空間における適切な生成種を慎重に選択することで、希少な概念を正しく生成できることを示し、SeedSelectと呼ぶ手法を提案する。
SeedSelectは効率的で、拡散モデルの再トレーニングを必要としない。
一連の問題に対してSeedSelectの利点を評価する。
まず、少数ショットのセマンティックデータ拡張では、少数ショットとロングテールのベンチマークで意味的に正しいイメージを生成します。
拡散モデルのトレーニングデータの頭部と尾部の両方から,すべてのクラスにおいて分類の改善を示す。
さらに,現在の拡散モデルにおいてよく知られた落とし穴である手の修正画像に対する種子選択の評価を行い,手の発生を大幅に改善することを示す。
関連論文リスト
- Not Every Image is Worth a Thousand Words: Quantifying Originality in Stable Diffusion [21.252145402613472]
本研究は,テキスト・ツー・イメージ(T2I)生成拡散モデルにおける原点の定量化という課題に対処する。
本稿では,テキストのインバージョンを利用して画像の原点度をモデルによる再構成に必要なトークン数に基づいて測定する手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T14:42:02Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。
強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。
提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-20T08:10:43Z) - Conditional Image Generation with Pretrained Generative Model [1.4685355149711303]
拡散モデルは、GANモデルと比較して高品質な画像を生成する能力で人気を集めている。
これらのモデルには膨大な量のデータ、計算資源、そして訓練を成功させるために巧妙なチューニングが必要である。
本研究では,条件付き画像生成のために,事前学習した非条件拡散モデルを活用する手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T18:27:53Z) - Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文 参考訳(メタデータ) (2023-10-05T17:59:18Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - Extracting Training Data from Diffusion Models [77.11719063152027]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。
生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。
さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-30T18:53:09Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。