論文の概要: Interactive Fashion Content Generation Using LLMs and Latent Diffusion
Models
- arxiv url: http://arxiv.org/abs/2306.05182v1
- Date: Mon, 15 May 2023 18:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-11 13:28:26.484608
- Title: Interactive Fashion Content Generation Using LLMs and Latent Diffusion
Models
- Title(参考訳): llmsと潜在拡散モデルを用いたインタラクティブファッションコンテンツ生成
- Authors: Krishna Sri Ipsit Mantri and Nevasini Sasikumar
- Abstract要約: ファッション可能な画像生成は、世界中の多様なファッションのイメージを合成することを目的としている。
拡散モデルとエネルギーベースモデル(EBM)の等価性を利用する手法を提案する。
以上の結果から,LLMを用いて潜在拡散モデルのプロンプトを洗練させることにより,グローバルな創造的,文化的に多様化したファッションスタイルの創出を支援することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fashionable image generation aims to synthesize images of diverse fashion
prevalent around the globe, helping fashion designers in real-time
visualization by giving them a basic customized structure of how a specific
design preference would look in real life and what further improvements can be
made for enhanced customer satisfaction. Moreover, users can alone interact and
generate fashionable images by just giving a few simple prompts. Recently,
diffusion models have gained popularity as generative models owing to their
flexibility and generation of realistic images from Gaussian noise. Latent
diffusion models are a type of generative model that use diffusion processes to
model the generation of complex data, such as images, audio, or text. They are
called "latent" because they learn a hidden representation, or latent variable,
of the data that captures its underlying structure. We propose a method
exploiting the equivalence between diffusion models and energy-based models
(EBMs) and suggesting ways to compose multiple probability distributions. We
describe a pipeline on how our method can be used specifically for new
fashionable outfit generation and virtual try-on using LLM-guided text-to-image
generation. Our results indicate that using an LLM to refine the prompts to the
latent diffusion model assists in generating globally creative and culturally
diversified fashion styles and reducing bias.
- Abstract(参考訳): Fashionable Image Generationは、世界中の多様なファッションのイメージを合成することを目的としており、ファッションデザイナーが、特定のデザインの好みが実際にどのように見えるか、そして顧客満足度を高めるためにさらに改善されるかについて、基本的なカスタマイズされた構造を提供することによって、リアルタイム可視化を支援する。
さらに、ユーザーは簡単なプロンプトをするだけで、一人でファッショナブルな画像を作成できる。
近年,ガウス雑音の可視性や現実的な画像の生成により,拡散モデルが生成モデルとして人気を博している。
潜時拡散モデルは、拡散過程を用いて画像、音声、テキストなどの複雑なデータの生成をモデル化する生成モデルの一種である。
これらは、その基盤となる構造をキャプチャするデータの隠れた表現、あるいは潜在変数を学ぶため、"latent"と呼ばれる。
本稿では,拡散モデルとエネルギーベースモデル(EBM)の等価性を利用して,複数の確率分布を構成する方法を提案する。
LLM誘導のテキスト・ツー・イメージ・ジェネレーションを用いて,新しいファッショナブルな衣装生成と仮想試行のために,我々の手法をどのように利用できるかを示す。
本研究は,llmを用いて潜在拡散モデルへのプロンプトを洗練することにより,グローバルに創造的かつ文化的に多様化したファッションスタイルを創造し,バイアスを低減できることを示す。
関連論文リスト
- Diffusion Models For Multi-Modal Generative Modeling [32.61765315067488]
本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。
本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。
論文 参考訳(メタデータ) (2024-07-24T18:04:17Z) - FashionSD-X: Multimodal Fashion Garment Synthesis using Latent Diffusion [11.646594594565098]
本研究では,遅延拡散モデルを用いて,ファッションデザインのプロセスを変えるための新しい生成パイプラインを提案する。
我々は、スケッチデータを統合することで、マルチモーダルドレスコードやVITON-HDを含む最先端の仮想試行データセットを活用し、強化する。
論文 参考訳(メタデータ) (2024-04-26T14:59:42Z) - Diffusion Cocktail: Mixing Domain-Specific Diffusion Models for Diversified Image Generations [7.604214200457584]
Diffusion Cocktail(ディフュージョン・コックテール、ディフュージョン・コックテール、Diffusion Cocktail、ディフュージョン・コックテール)は、複数の拡散モデル間でスタイルとコンテンツ情報を伝達する訓練のない方法である。
Ditailは生成プロセスのきめ細かい制御を提供し、スタイルやコンテンツの柔軟な操作を可能にする。
論文 参考訳(メタデータ) (2023-12-12T00:53:56Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC [102.64648158034568]
拡散モデルは、多くの領域において、生成モデリングの一般的なアプローチとなっている。
本稿では,新しい構成演算子の利用を可能にする拡散モデルのエネルギーベースパラメータ化を提案する。
これらのサンプルは、幅広い問題にまたがって構成生成の顕著な改善につながっている。
論文 参考訳(メタデータ) (2023-02-22T18:48:46Z) - Extracting Training Data from Diffusion Models [77.11719063152027]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。
生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。
さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-30T18:53:09Z) - Implementing and Experimenting with Diffusion Models for Text-to-Image
Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。
テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。
この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文 参考訳(メタデータ) (2022-09-22T12:03:33Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。