論文の概要: Interactive Fashion Content Generation Using LLMs and Latent Diffusion
Models
- arxiv url: http://arxiv.org/abs/2306.05182v1
- Date: Mon, 15 May 2023 18:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-11 13:28:26.484608
- Title: Interactive Fashion Content Generation Using LLMs and Latent Diffusion
Models
- Title(参考訳): llmsと潜在拡散モデルを用いたインタラクティブファッションコンテンツ生成
- Authors: Krishna Sri Ipsit Mantri and Nevasini Sasikumar
- Abstract要約: ファッション可能な画像生成は、世界中の多様なファッションのイメージを合成することを目的としている。
拡散モデルとエネルギーベースモデル(EBM)の等価性を利用する手法を提案する。
以上の結果から,LLMを用いて潜在拡散モデルのプロンプトを洗練させることにより,グローバルな創造的,文化的に多様化したファッションスタイルの創出を支援することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fashionable image generation aims to synthesize images of diverse fashion
prevalent around the globe, helping fashion designers in real-time
visualization by giving them a basic customized structure of how a specific
design preference would look in real life and what further improvements can be
made for enhanced customer satisfaction. Moreover, users can alone interact and
generate fashionable images by just giving a few simple prompts. Recently,
diffusion models have gained popularity as generative models owing to their
flexibility and generation of realistic images from Gaussian noise. Latent
diffusion models are a type of generative model that use diffusion processes to
model the generation of complex data, such as images, audio, or text. They are
called "latent" because they learn a hidden representation, or latent variable,
of the data that captures its underlying structure. We propose a method
exploiting the equivalence between diffusion models and energy-based models
(EBMs) and suggesting ways to compose multiple probability distributions. We
describe a pipeline on how our method can be used specifically for new
fashionable outfit generation and virtual try-on using LLM-guided text-to-image
generation. Our results indicate that using an LLM to refine the prompts to the
latent diffusion model assists in generating globally creative and culturally
diversified fashion styles and reducing bias.
- Abstract(参考訳): Fashionable Image Generationは、世界中の多様なファッションのイメージを合成することを目的としており、ファッションデザイナーが、特定のデザインの好みが実際にどのように見えるか、そして顧客満足度を高めるためにさらに改善されるかについて、基本的なカスタマイズされた構造を提供することによって、リアルタイム可視化を支援する。
さらに、ユーザーは簡単なプロンプトをするだけで、一人でファッショナブルな画像を作成できる。
近年,ガウス雑音の可視性や現実的な画像の生成により,拡散モデルが生成モデルとして人気を博している。
潜時拡散モデルは、拡散過程を用いて画像、音声、テキストなどの複雑なデータの生成をモデル化する生成モデルの一種である。
これらは、その基盤となる構造をキャプチャするデータの隠れた表現、あるいは潜在変数を学ぶため、"latent"と呼ばれる。
本稿では,拡散モデルとエネルギーベースモデル(EBM)の等価性を利用して,複数の確率分布を構成する方法を提案する。
LLM誘導のテキスト・ツー・イメージ・ジェネレーションを用いて,新しいファッショナブルな衣装生成と仮想試行のために,我々の手法をどのように利用できるかを示す。
本研究は,llmを用いて潜在拡散モデルへのプロンプトを洗練することにより,グローバルに創造的かつ文化的に多様化したファッションスタイルを創造し,バイアスを低減できることを示す。
関連論文リスト
- Cross-Cultural Fashion Design via Interactive Large Language Models and Diffusion Models [0.0]
ファッションコンテンツ生成は、人工知能とクリエイティブデザインの交差点における新興分野である。
既存の手法は、文化的バイアス、限られたスケーラビリティ、テキストプロンプトと生成されたビジュアルの整合性に苦しむ。
本稿では,Large Language Models (LLMs) とLatent Diffusion Models (LDMs) を統合し,これらの課題に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-26T15:57:16Z) - Dual Diffusion for Unified Image Generation and Understanding [32.7554623473768]
マルチモーダル理解と生成のための大規模かつ完全なエンドツーエンド拡散モデルを提案する。
我々は、画像とテキストの条件付き確率を同時にトレーニングするクロスモーダル最大推定フレームワークを活用する。
我々のモデルは、最近の統合画像理解・生成モデルと比較して、競争性能が向上した。
論文 参考訳(メタデータ) (2024-12-31T05:49:00Z) - DiffusionTrend: A Minimalist Approach to Virtual Fashion Try-On [103.89972383310715]
DiffusionTrendは、事前情報に富んだ潜伏情報を利用して、衣服の詳細のニュアンスをキャプチャする。
視覚的に魅力的な試行体験を提供し、トレーニング不要の拡散モデルの可能性を強調します。
論文 参考訳(メタデータ) (2024-12-19T02:24:35Z) - Diffusion Models For Multi-Modal Generative Modeling [32.61765315067488]
本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。
本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。
論文 参考訳(メタデータ) (2024-07-24T18:04:17Z) - FashionSD-X: Multimodal Fashion Garment Synthesis using Latent Diffusion [11.646594594565098]
本研究では,遅延拡散モデルを用いて,ファッションデザインのプロセスを変えるための新しい生成パイプラインを提案する。
我々は、スケッチデータを統合することで、マルチモーダルドレスコードやVITON-HDを含む最先端の仮想試行データセットを活用し、強化する。
論文 参考訳(メタデータ) (2024-04-26T14:59:42Z) - Diffusion Cocktail: Mixing Domain-Specific Diffusion Models for Diversified Image Generations [7.604214200457584]
Diffusion Cocktail(ディフュージョン・コックテール、ディフュージョン・コックテール、Diffusion Cocktail、ディフュージョン・コックテール)は、複数の拡散モデル間でスタイルとコンテンツ情報を伝達する訓練のない方法である。
Ditailは生成プロセスのきめ細かい制御を提供し、スタイルやコンテンツの柔軟な操作を可能にする。
論文 参考訳(メタデータ) (2023-12-12T00:53:56Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC [102.64648158034568]
拡散モデルは、多くの領域において、生成モデリングの一般的なアプローチとなっている。
本稿では,新しい構成演算子の利用を可能にする拡散モデルのエネルギーベースパラメータ化を提案する。
これらのサンプルは、幅広い問題にまたがって構成生成の顕著な改善につながっている。
論文 参考訳(メタデータ) (2023-02-22T18:48:46Z) - Extracting Training Data from Diffusion Models [77.11719063152027]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。
生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。
さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-30T18:53:09Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。