論文の概要: Enhancing Compositional Text-to-Image Generation with Reliable Random Seeds
- arxiv url: http://arxiv.org/abs/2411.18810v2
- Date: Mon, 02 Dec 2024 09:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 13:36:02.332532
- Title: Enhancing Compositional Text-to-Image Generation with Reliable Random Seeds
- Title(参考訳): 安定なランダムシードを用いた合成テキスト・画像生成の強化
- Authors: Shuangqi Li, Hieu Le, Jingyi Xu, Mathieu Salzmann,
- Abstract要約: テキスト間拡散モデルは任意のテキストプロンプトからリアルな画像を生成することができる。
彼らはしばしば「2匹の犬」や「ボウルの右側のペンギン」のような作曲のプロンプトに対して矛盾した結果を出す。
- 参考スコア(独自算出の注目度): 63.753710512888965
- License:
- Abstract: Text-to-image diffusion models have demonstrated remarkable capability in generating realistic images from arbitrary text prompts. However, they often produce inconsistent results for compositional prompts such as "two dogs" or "a penguin on the right of a bowl". Understanding these inconsistencies is crucial for reliable image generation. In this paper, we highlight the significant role of initial noise in these inconsistencies, where certain noise patterns are more reliable for compositional prompts than others. Our analyses reveal that different initial random seeds tend to guide the model to place objects in distinct image areas, potentially adhering to specific patterns of camera angles and image composition associated with the seed. To improve the model's compositional ability, we propose a method for mining these reliable cases, resulting in a curated training set of generated images without requiring any manual annotation. By fine-tuning text-to-image models on these generated images, we significantly enhance their compositional capabilities. For numerical composition, we observe relative increases of 29.3% and 19.5% for Stable Diffusion and PixArt-{\alpha}, respectively. Spatial composition sees even larger gains, with 60.7% for Stable Diffusion and 21.1% for PixArt-{\alpha}.
- Abstract(参考訳): テキスト間拡散モデルは任意のテキストプロンプトからリアルな画像を生成する際、顕著な能力を示した。
しかし、しばしば「2匹の犬」や「ボウルの右側のペンギン」のような作曲のプロンプトに対して矛盾する結果を出す。
これらの矛盾を理解することは、画像生成に不可欠である。
本稿では,これらの不整合における初期雑音の顕著な役割を強調する。
分析の結果, 異なる初期ランダムな種子は, 異なる画像領域にオブジェクトを配置する傾向があり, カメラアングルの特定のパターンや, シードに付随する画像組成に固執する可能性が示唆された。
モデルの構成能力を向上させるために,信頼性の高いケースをマイニングする手法を提案し,手動のアノテーションを必要とせずに生成画像のキュレートされたトレーニングセットを作成する。
生成した画像のテキスト・ツー・イメージモデルを微調整することにより,それらの合成能力を大幅に向上させる。
数値組成では, 安定拡散とPixArt-{\alphaの相対的な増加は29.3%, 19.5%である。
空間組成は60.7%が安定拡散、21.1%がPixArt-{\alphaである。
関連論文リスト
- Efficient Pruning of Text-to-Image Models: Insights from Pruning Stable Diffusion [3.399289369740637]
本稿では,安定拡散2号の訓練後刈り込みに関する先駆的な研究について述べる。
テキスト・ツー・イメージ領域におけるモデル圧縮に対する重要なニーズに対処する。
本稿では,テキストエンコーダを47.5%,拡散生成器を35%にプルークする最適プルーニング構成を提案する。
論文 参考訳(メタデータ) (2024-11-22T18:29:37Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - Good Seed Makes a Good Crop: Discovering Secret Seeds in Text-to-Image Diffusion Models [13.4617544015866]
拡散推論におけるランダム種子の影響について,大規模な科学的研究を行う。
我々は、最も優れた'金'シードが21.60の印象的なFIDを達成したのに対し、最悪の'金'シードのFIDは31.97であることがわかった。
分類器は、わずか数回で99.9%以上の精度で画像を生成するために使用されるシード番号を予測することができる。
論文 参考訳(メタデータ) (2024-05-23T17:46:23Z) - Preserving Image Properties Through Initializations in Diffusion Models [6.804700416902898]
現在適用されている安定拡散法は,小売写真の要求を尊重しないことを示す。
非常にノイズの多い画像でデノイザーを訓練する通常の習慣は、推論中に一貫性のない画像を生成する。
均一な背景を持つ中央の小売商品画像で訓練されたネットワークは、不規則な背景を持つ画像を生成する。
本手法は,拡散法における制御可能性を高めるために,他の制御法と良好に相互作用することができる。
論文 参考訳(メタデータ) (2024-01-04T06:55:49Z) - Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Training-Free Structured Diffusion Guidance for Compositional
Text-to-Image Synthesis [78.28620571530706]
大規模拡散モデルはテキスト・ツー・イメージ合成(T2I)タスクの最先端の結果を得た。
我々は,T2Iモデルの合成スキル,特により正確な属性結合と画像合成を改善する。
論文 参考訳(メタデータ) (2022-12-09T18:30:24Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - OptGAN: Optimizing and Interpreting the Latent Space of the Conditional
Text-to-Image GANs [8.26410341981427]
生成したサンプルが信頼でき、現実的、あるいは自然であることを保証する方法について研究する。
本稿では,条件付きテキスト・ツー・イメージGANアーキテクチャの潜在空間における意味論的理解可能な方向を識別するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-25T20:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。