論文の概要: SGDiff: A Style Guided Diffusion Model for Fashion Synthesis
- arxiv url: http://arxiv.org/abs/2308.07605v1
- Date: Tue, 15 Aug 2023 07:20:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 13:50:40.158358
- Title: SGDiff: A Style Guided Diffusion Model for Fashion Synthesis
- Title(参考訳): SGDiff:ファッション合成のためのスタイルガイド付き拡散モデル
- Authors: Zhengwentai Sun, Yanghong Zhou, Honghong He, P. Y. Mok
- Abstract要約: 提案したSGDiffは、画像のモダリティと事前訓練されたテキスト-画像拡散モデルを組み合わせることで、創造的なファッション画像合成を容易にする。
補足的なスタイルのガイダンスを取り入れることで、テキストから画像への拡散モデルの限界に対処する。
本稿では、ファッション画像合成に特化して設計されたSG-Fashionという新しいデータセットも紹介する。
- 参考スコア(独自算出の注目度): 2.4578723416255754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper reports on the development of \textbf{a novel style guided
diffusion model (SGDiff)} which overcomes certain weaknesses inherent in
existing models for image synthesis. The proposed SGDiff combines image
modality with a pretrained text-to-image diffusion model to facilitate creative
fashion image synthesis. It addresses the limitations of text-to-image
diffusion models by incorporating supplementary style guidance, substantially
reducing training costs, and overcoming the difficulties of controlling
synthesized styles with text-only inputs. This paper also introduces a new
dataset -- SG-Fashion, specifically designed for fashion image synthesis
applications, offering high-resolution images and an extensive range of garment
categories. By means of comprehensive ablation study, we examine the
application of classifier-free guidance to a variety of conditions and validate
the effectiveness of the proposed model for generating fashion images of the
desired categories, product attributes, and styles. The contributions of this
paper include a novel classifier-free guidance method for multi-modal feature
fusion, a comprehensive dataset for fashion image synthesis application, a
thorough investigation on conditioned text-to-image synthesis, and valuable
insights for future research in the text-to-image synthesis domain. The code
and dataset are available at: \url{https://github.com/taited/SGDiff}.
- Abstract(参考訳): 本稿では,既存の画像合成モデルに固有の弱点を克服する新しいスタイル誘導拡散モデル(SGDiff)の開発について報告する。
提案したSGDiffは、画像のモダリティと事前訓練されたテキスト-画像拡散モデルを組み合わせることで、創造的なファッション画像合成を容易にする。
補足的なスタイルガイダンスを導入し、トレーニングコストを大幅に削減し、テキストのみの入力で合成スタイルを制御することの難しさを克服することで、テキスト間拡散モデルの限界に対処する。
本稿では、ファッション画像合成アプリケーション用に特別に設計されたsg-fashionという新しいデータセットも紹介する。
包括的アブレーション研究により,分類者なし指導を様々な条件に適用し,希望するカテゴリ,製品属性,スタイルのファッション画像を生成するためのモデルの有効性を検証した。
本稿では,マルチモーダル特徴融合のための新しい分類器フリーガイダンス手法,ファッション画像合成のための包括的データセット,条件付きテキスト対画像合成に関する徹底的な調査,テキスト対画像合成領域における今後の研究への貴重な洞察について述べる。
コードとデータセットは \url{https://github.com/taited/sgdiff} で利用可能である。
関連論文リスト
- Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Improving Few-shot Image Generation by Structural Discrimination and
Textural Modulation [10.389698647141296]
画像生成の目的は、このカテゴリからいくつかの画像が与えられた場合、あるカテゴリに対して可塑性で多様な画像を生成することである。
既存のアプローチでは、異なる画像をグローバルに補間するか、事前に定義された係数で局所表現を融合する。
本稿では,内部局所表現に外部意味信号を注入する新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:10:21Z) - Text-to-image Diffusion Models in Generative AI: A Survey [86.11421833017693]
本調査は,テキストから画像を生成する際の拡散モデルの進展を概観する。
ビデオなどの様々なモダリティのためのテキスト誘導生成や、テキスト誘導画像編集など、画像生成以外の応用について論じる。
論文 参考訳(メタデータ) (2023-03-14T13:49:54Z) - StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale
Text-to-Image Synthesis [54.39789900854696]
StyleGAN-Tは大規模なテキスト・画像合成の要求に対処する。
従来のGANよりも大幅に改善され、サンプルの品質と速度の点で蒸留拡散モデルより優れていた。
論文 参考訳(メタデータ) (2023-01-23T16:05:45Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Text-Guided Synthesis of Artistic Images with Retrieval-Augmented
Diffusion Models [12.676356746752894]
検索拡張拡散モデル(RDM)に基づく代替手法を提案する。
検索データベースを、特定の視覚スタイルの画像のみを含む、より専門的なデータベースに置き換える。
これにより、トレーニング後の一般的なトレーニングモデルに新たな方法が提供され、それによって特定の視覚スタイルが指定される。
論文 参考訳(メタデータ) (2022-07-26T16:56:51Z) - GLIDE: Towards Photorealistic Image Generation and Editing with
Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。
後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。
我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文 参考訳(メタデータ) (2021-12-20T18:42:55Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。