論文の概要: Multimodal Garment Designer: Human-Centric Latent Diffusion Models for
Fashion Image Editing
- arxiv url: http://arxiv.org/abs/2304.02051v1
- Date: Tue, 4 Apr 2023 18:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 14:24:07.394727
- Title: Multimodal Garment Designer: Human-Centric Latent Diffusion Models for
Fashion Image Editing
- Title(参考訳): マルチモーダル衣料デザイン : ファッション画像編集のための人間中心潜在拡散モデル
- Authors: Alberto Baldrati, Davide Morelli, Giuseppe Cartella, Marcella Cornia,
Marco Bertini, Rita Cucchiara
- Abstract要約: 本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。
我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。
タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
- 参考スコア(独自算出の注目度): 35.4056826207203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fashion illustration is used by designers to communicate their vision and to
bring the design idea from conceptualization to realization, showing how
clothes interact with the human body. In this context, computer vision can thus
be used to improve the fashion design process. Differently from previous works
that mainly focused on the virtual try-on of garments, we propose the task of
multimodal-conditioned fashion image editing, guiding the generation of
human-centric fashion images by following multimodal prompts, such as text,
human body poses, and garment sketches. We tackle this problem by proposing a
new architecture based on latent diffusion models, an approach that has not
been used before in the fashion domain. Given the lack of existing datasets
suitable for the task, we also extend two existing fashion datasets, namely
Dress Code and VITON-HD, with multimodal annotations collected in a
semi-automatic manner. Experimental results on these new datasets demonstrate
the effectiveness of our proposal, both in terms of realism and coherence with
the given multimodal inputs. Source code and collected multimodal annotations
will be publicly released at:
https://github.com/aimagelab/multimodal-garment-designer.
- Abstract(参考訳): ファッションイラストは、デザイナーがビジョンを伝え、デザインのアイデアを概念化から実現し、服が人体とどのように相互作用するかを示すために使われる。
この文脈では、コンピュータビジョンはファッションデザインのプロセスを改善するために使用できる。
衣料品の仮想試着を中心にした従来の作品とは違って,本研究では,テキスト,人体ポーズ,スケッチなどのマルチモーダルなプロンプトに従うことで,人間中心のファッション画像の生成を導く,マルチモーダルなファッション画像編集の課題を提案する。
ファッションドメインではこれまで使われていなかったアプローチである潜在拡散モデルに基づく新しいアーキテクチャを提案することで、この問題に対処する。
タスクに適した既存のデータセットがないので、Dress CodeとVITON-HDという2つの既存のファッションデータセットも半自動で収集するマルチモーダルアノテーションで拡張します。
これらの新しいデータセットに関する実験結果は、与えられたマルチモーダル入力に対するリアリズムとコヒーレンスの両方の観点から、提案の有効性を示している。
ソースコードと収集されたマルチモーダルアノテーションは、https://github.com/aimagelab/multimodal-garment-designerで公開される。
関連論文リスト
- UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation [29.489516715874306]
ファッション分野におけるマルチモーダル生成と検索タスクの課題を同時に解決する統合フレームワークUniFashionを提案する。
我々のモデルは、様々なファッションタスクにおいて、過去のシングルタスク・オブ・ザ・アーティファクトモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-08-21T03:17:20Z) - FashionSD-X: Multimodal Fashion Garment Synthesis using Latent Diffusion [11.646594594565098]
本研究では,遅延拡散モデルを用いて,ファッションデザインのプロセスを変えるための新しい生成パイプラインを提案する。
我々は、スケッチデータを統合することで、マルチモーダルドレスコードやVITON-HDを含む最先端の仮想試行データセットを活用し、強化する。
論文 参考訳(メタデータ) (2024-04-26T14:59:42Z) - Multimodal-Conditioned Latent Diffusion Models for Fashion Image Editing [40.70752781891058]
本稿では,マルチモーダルなファッション画像編集の課題に取り組む。
本研究の目的は,テキスト,人体ポーズ,衣料品スケッチ,布地テクスチャなど,マルチモーダルなプロンプトでガイドされた人中心のファッションイメージを作成することである。
論文 参考訳(メタデータ) (2024-03-21T20:43:10Z) - Quality and Quantity: Unveiling a Million High-Quality Images for Text-to-Image Synthesis in Fashion Design [14.588884182004277]
Fashion-Diffusion データセットは,多年にわたる厳格な努力の成果である。
データセットは100万以上の高品質なファッションイメージで構成されており、詳細なテキスト記述と組み合わせている。
T2Iに基づくファッションデザイン分野の標準化を促進するために,ファッションデザインモデルの性能評価のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-19T06:43:11Z) - Fashion Matrix: Editing Photos by Just Talking [66.83502497764698]
我々は、写真編集専用のFashion Matrixと呼ばれる階層型AIシステムを開発した。
Fashion MatrixはLarge Language Models (LLM) を基礎的なサポートとして採用し、ユーザとの反復的なインタラクションに従事している。
Visual Foundation Modelsは、テキストプロンプトとマスクから編集画像を生成するために活用され、ファッション編集プロセスの自動化を容易にする。
論文 参考訳(メタデータ) (2023-07-25T04:06:25Z) - DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion [63.179505586264014]
静止画像からアニメーション・ファッション・ビデオを生成する拡散法であるDreamPoseを提案する。
そこで本手法では,人体と織物の両方の動きを収録した映像を合成する。
論文 参考訳(メタデータ) (2023-04-12T17:59:17Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - M6-Fashion: High-Fidelity Multi-modal Image Generation and Editing [51.033376763225675]
我々は、マルチモーダル制御のスタイルの事前知識と柔軟性を、1つの統合された2段階フレームワーク M6-Fashion に適用し、実践的なAI支援型ファッションデザインに焦点を当てる。
M6-Fashionは、非自己回帰生成の自己補正を利用して、推論速度を改善し、全体的な一貫性を高め、様々な信号制御をサポートする。
論文 参考訳(メタデータ) (2022-05-24T01:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。