論文の概要: Multimodal-Conditioned Latent Diffusion Models for Fashion Image Editing
- arxiv url: http://arxiv.org/abs/2403.14828v2
- Date: Mon, 25 Mar 2024 10:12:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 22:51:48.562534
- Title: Multimodal-Conditioned Latent Diffusion Models for Fashion Image Editing
- Title(参考訳): ファッション画像編集のためのマルチモーダル・コンディション付き潜時拡散モデル
- Authors: Alberto Baldrati, Davide Morelli, Marcella Cornia, Marco Bertini, Rita Cucchiara,
- Abstract要約: 本稿では,マルチモーダルなファッション画像編集の課題に取り組む。
本研究の目的は,テキスト,人体ポーズ,衣料品スケッチ,布地テクスチャなど,マルチモーダルなプロンプトでガイドされた人中心のファッションイメージを作成することである。
- 参考スコア(独自算出の注目度): 40.70752781891058
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fashion illustration is a crucial medium for designers to convey their creative vision and transform design concepts into tangible representations that showcase the interplay between clothing and the human body. In the context of fashion design, computer vision techniques have the potential to enhance and streamline the design process. Departing from prior research primarily focused on virtual try-on, this paper tackles the task of multimodal-conditioned fashion image editing. Our approach aims to generate human-centric fashion images guided by multimodal prompts, including text, human body poses, garment sketches, and fabric textures. To address this problem, we propose extending latent diffusion models to incorporate these multiple modalities and modifying the structure of the denoising network, taking multimodal prompts as input. To condition the proposed architecture on fabric textures, we employ textual inversion techniques and let diverse cross-attention layers of the denoising network attend to textual and texture information, thus incorporating different granularity conditioning details. Given the lack of datasets for the task, we extend two existing fashion datasets, Dress Code and VITON-HD, with multimodal annotations. Experimental evaluations demonstrate the effectiveness of our proposed approach in terms of realism and coherence concerning the provided multimodal inputs.
- Abstract(参考訳): ファッションイラストレーションは、デザイナーが創造的なビジョンを伝え、デザイン概念を、衣服と人間の身体の間の相互作用を示す有形表現に変換するための重要な媒体である。
ファッションデザインの文脈では、コンピュータビジョン技術はデザインプロセスの強化と合理化の可能性を秘めている。
本稿では,主に仮想試行に焦点を当てた先行研究とは別に,マルチモーダルなファッション画像編集の課題に取り組む。
本研究の目的は,テキスト,人体ポーズ,衣料品スケッチ,布地テクスチャなど,マルチモーダルなプロンプトでガイドされた人中心のファッションイメージを作成することである。
この問題に対処するため,複数のモードを組み込むために潜在拡散モデルを拡張し,マルチモーダルプロンプトを入力としてデノナイジングネットワークの構造を変更することを提案する。
本研究では,テクスチャのテクスチャを規定するために,テクスチャのテクスチャのテクスチャを規定するために,テクスチャとテクスチャの情報に多彩なクロスアテンション層を対応させて,異なる粒度条件の詳細を組み込む。
タスクにデータセットがないので、Dress CodeとVITON-HDという2つの既存のファッションデータセットをマルチモーダルアノテーションで拡張します。
実験により,提案手法の有効性を,提供されたマルチモーダル入力に対するリアリズムとコヒーレンスの観点から検証した。
関連論文リスト
- DPDEdit: Detail-Preserved Diffusion Models for Multimodal Fashion Image Editing [26.090574235851083]
Detail-Preserved Diffusion Models (DPDEdit) と呼ばれる潜在拡散モデルに基づく新しいファッション画像編集アーキテクチャを導入する。
DPDEditは、テキストプロンプト、地域マスク、人間のポーズイメージ、衣料品のテクスチャイメージを統合することで、拡散モデルのファッション画像生成をガイドする。
テクスチャのテクスチャの詳細を対象のファッションイメージに転送するために,テクスチャ注入と精細化機構を提案する。
論文 参考訳(メタデータ) (2024-09-02T09:15:26Z) - UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation [29.489516715874306]
ファッション分野におけるマルチモーダル生成と検索タスクの課題を同時に解決する統合フレームワークUniFashionを提案する。
我々のモデルは、様々なファッションタスクにおいて、過去のシングルタスク・オブ・ザ・アーティファクトモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-08-21T03:17:20Z) - FashionSD-X: Multimodal Fashion Garment Synthesis using Latent Diffusion [11.646594594565098]
本研究では,遅延拡散モデルを用いて,ファッションデザインのプロセスを変えるための新しい生成パイプラインを提案する。
我々は、スケッチデータを統合することで、マルチモーダルドレスコードやVITON-HDを含む最先端の仮想試行データセットを活用し、強化する。
論文 参考訳(メタデータ) (2024-04-26T14:59:42Z) - CreativeSynth: Creative Blending and Synthesis of Visual Arts based on
Multimodal Diffusion [74.44273919041912]
大規模なテキスト・画像生成モデルは印象的な進歩を遂げ、高品質な画像を合成する能力を示している。
しかし、これらのモデルを芸術的な画像編集に適用することは、2つの重要な課題を提起する。
我々は,マルチモーダル入力をコーディネートする拡散モデルに基づく,革新的な統一フレームワークCreative Synthを構築した。
論文 参考訳(メタデータ) (2024-01-25T10:42:09Z) - Hierarchical Fashion Design with Multi-stage Diffusion Models [17.848891542772446]
クロスモーダルなファッション合成と編集は、ファッションデザイナーにインテリジェントなサポートを提供する。
現在の拡散モデルは、画像合成における可換安定性と制御性を示している。
共有多段階拡散モデルを用いた新しいファッションデザイン手法であるHieraFashDiffを提案する。
論文 参考訳(メタデータ) (2024-01-15T03:38:57Z) - Multimodal Garment Designer: Human-Centric Latent Diffusion Models for
Fashion Image Editing [40.70752781891058]
本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。
我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。
タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
論文 参考訳(メタデータ) (2023-04-04T18:03:04Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Multimodal Image Synthesis and Editing: The Generative AI Era [131.9569600472503]
マルチモーダル画像合成と編集は 近年 ホットな研究テーマになっている。
近年のマルチモーダル画像合成・編集の進歩を包括的に理解している。
ベンチマークデータセットと評価指標と,それに対応する実験結果について述べる。
論文 参考訳(メタデータ) (2021-12-27T10:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。