論文の概要: Generating images of rare concepts using pre-trained diffusion models
- arxiv url: http://arxiv.org/abs/2304.14530v3
- Date: Wed, 27 Dec 2023 07:42:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 23:15:03.523947
- Title: Generating images of rare concepts using pre-trained diffusion models
- Title(参考訳): 事前学習拡散モデルを用いた希少概念の生成
- Authors: Dvir Samuel, Rami Ben-Ari, Simon Raviv, Nir Darshan, Gal Chechik
- Abstract要約: テキスト・ツー・イメージ拡散モデルは高品質な画像を合成できるが、様々な制限がある。
これらの制限は、トレーニングデータの長い尾の性質に起因していることが示されています。
ノイズ空間内で適切な生成種を慎重に選択することで、稀な概念を正しく生成できることが示される。
- 参考スコア(独自算出の注目度): 32.5337654536764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models can synthesize high-quality images, but they
have various limitations. Here we highlight a common failure mode of these
models, namely, generating uncommon concepts and structured concepts like hand
palms. We show that their limitation is partly due to the long-tail nature of
their training data: web-crawled data sets are strongly unbalanced, causing
models to under-represent concepts from the tail of the distribution. We
characterize the effect of unbalanced training data on text-to-image models and
offer a remedy. We show that rare concepts can be correctly generated by
carefully selecting suitable generation seeds in the noise space, using a small
reference set of images, a technique that we call SeedSelect. SeedSelect does
not require retraining or finetuning the diffusion model. We assess the
faithfulness, quality and diversity of SeedSelect in creating rare objects and
generating complex formations like hand images, and find it consistently
achieves superior performance. We further show the advantage of SeedSelect in
semantic data augmentation. Generating semantically appropriate images can
successfully improve performance in few-shot recognition benchmarks, for
classes from the head and from the tail of the training data of diffusion
models
- Abstract(参考訳): テキストと画像の拡散モデルは高品質な画像を合成できるが、様々な制限がある。
ここでは、これらのモデルの一般的な失敗モード、すなわち、手のひらのような一般的でない概念と構造化された概念の生成を強調する。
webクローリングされたデータセットは、強くバランスがとれず、モデルが分散のテールから概念を過小表現する原因となっている。
テキストから画像へのモデルに対する不均衡なトレーニングデータの効果を特徴付け、修正を提供する。
本稿では,SedSelectと呼ぶ画像の参照セットを用いて,ノイズ空間における適切な生成種を慎重に選択することで,稀な概念を正しく生成できることを示す。
SeedSelectは拡散モデルの再トレーニングや微調整を必要としない。
種子の忠実性,品質,多様性を評価して希少な物体を作製し,ハンドイメージのような複雑な形状を生成し,一貫して優れた性能を実現する。
さらにセマンティックデータ拡張におけるSeedSelectの利点を示す。
意味的適切な画像を生成することは、頭部および拡散モデルの訓練データ尾部からのクラスにおいて、数ショット認識ベンチマークのパフォーマンスを向上させることができる
関連論文リスト
- Not Every Image is Worth a Thousand Words: Quantifying Originality in Stable Diffusion [21.252145402613472]
本研究は,テキスト・ツー・イメージ(T2I)生成拡散モデルにおける原点の定量化という課題に対処する。
本稿では,テキストのインバージョンを利用して画像の原点度をモデルによる再構成に必要なトークン数に基づいて測定する手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T14:42:02Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。
強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。
提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-20T08:10:43Z) - Conditional Image Generation with Pretrained Generative Model [1.4685355149711303]
拡散モデルは、GANモデルと比較して高品質な画像を生成する能力で人気を集めている。
これらのモデルには膨大な量のデータ、計算資源、そして訓練を成功させるために巧妙なチューニングが必要である。
本研究では,条件付き画像生成のために,事前学習した非条件拡散モデルを活用する手法を提案する。
論文 参考訳(メタデータ) (2023-12-20T18:27:53Z) - Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文 参考訳(メタデータ) (2023-10-05T17:59:18Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - Extracting Training Data from Diffusion Models [77.11719063152027]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。
生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。
さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-30T18:53:09Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。