論文の概要: DiffFashion: Reference-based Fashion Design with Structure-aware
Transfer by Diffusion Models
- arxiv url: http://arxiv.org/abs/2302.06826v1
- Date: Tue, 14 Feb 2023 04:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 16:30:46.111707
- Title: DiffFashion: Reference-based Fashion Design with Structure-aware
Transfer by Diffusion Models
- Title(参考訳): DiffFashion:拡散モデルによる構造認識を用いた参照型ファッション設計
- Authors: Shidong Cao, Wenhao Chai, Shengyu Hao, Yanting Zhang, Hangyue Chen,
and Gaoang Wang
- Abstract要約: そこで我々は,ファッションデザインの課題に焦点をあて,衣料品イメージへの参照外観画像の転送を目指す。
新たにデザインされたファッション画像には参照画像がないため、これは難しい課題である。
本稿では,新しい衣服を意味的に生成するための,新しい拡散モデルに基づく教師なし構造認識伝達手法を提案する。
- 参考スコア(独自算出の注目度): 4.918209527904503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based fashion design with AI techniques has attracted increasing
attention in recent years. We focus on a new fashion design task, where we aim
to transfer a reference appearance image onto a clothing image while preserving
the structure of the clothing image. It is a challenging task since there are
no reference images available for the newly designed output fashion images.
Although diffusion-based image translation or neural style transfer (NST) has
enabled flexible style transfer, it is often difficult to maintain the original
structure of the image realistically during the reverse diffusion, especially
when the referenced appearance image greatly differs from the common clothing
appearance. To tackle this issue, we present a novel diffusion model-based
unsupervised structure-aware transfer method to semantically generate new
clothes from a given clothing image and a reference appearance image. In
specific, we decouple the foreground clothing with automatically generated
semantic masks by conditioned labels. And the mask is further used as guidance
in the denoising process to preserve the structure information. Moreover, we
use the pre-trained vision Transformer (ViT) for both appearance and structure
guidance. Our experimental results show that the proposed method outperforms
state-of-the-art baseline models, generating more realistic images in the
fashion design task. Code and demo can be found at
https://github.com/Rem105-210/DiffFashion.
- Abstract(参考訳): 近年,AI技術を用いたイメージベースファッションデザインが注目されている。
着衣画像の構造を保ちながら,参照外観画像を着衣画像に転送することを目的とした,新しいファッションデザイン課題に着目する。
新しく設計された出力ファッション画像には参照画像がないため、これは難しい課題である。
拡散型画像変換やニューラルスタイル転送(NST)はフレキシブルなスタイル転送を実現しているが、特に参照された外観画像が一般的な衣服の外観と大きく異なる場合、逆拡散中に画像の本来の構造を現実的に維持することはしばしば困難である。
この問題に対処するために,提案した衣服画像と参照外観画像から,新たな衣服を意味的に生成する,新しい拡散モデルに基づく非教師付き構造認識トランスファー手法を提案する。
具体的には、条件付きラベルで自動的に生成されるセマンティックマスクで前景の服を分離する。
そして、このマスクは、構造情報を保存するためのノイズ処理のガイダンスとして、さらに使用される。
さらに,事前学習型視覚変換器(ViT)を外観と構造誘導の両方に使用する。
実験の結果,提案手法は最先端のベースラインモデルより優れ,ファッションデザインタスクにおいてよりリアルな画像を生成することがわかった。
コードとデモはhttps://github.com/rem105-210/difffashionで見ることができる。
関連論文リスト
- Improving Virtual Try-On with Garment-focused Diffusion Models [91.95830983115474]
拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。
私たちは新しい拡散モデル、すなわちGarDiffを作り、衣服中心の拡散プロセスを引き起こします。
VITON-HDおよびDressCodeデータセットの実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
論文 参考訳(メタデータ) (2024-09-12T17:55:11Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - StableVITON: Learning Semantic Correspondence with Latent Diffusion
Model for Virtual Try-On [35.227896906556026]
衣服画像と人物画像が与えられた場合、画像ベースの仮想試行は、衣服画像の特徴を自然に正確に反映した、カスタマイズされた画像を生成することを目的としている。
本研究では,事前学習した拡散モデルの適用性を拡張し,仮想試行作業に独立して利用できるようにすることを目的とする。
提案するゼロ・クロスアテンションブロックは, 意味的対応を学習することで衣服の細部を保存できるだけでなく, ワープ過程における事前学習モデル固有の知識を利用して高忠実度画像を生成する。
論文 参考訳(メタデータ) (2023-12-04T08:27:59Z) - DIFF-NST: Diffusion Interleaving For deFormable Neural Style Transfer [27.39248034592382]
変形可能なスタイル転送を実現しつつ,新しいモデルのクラスを用いてスタイル転送を行う。
これらのモデルの先行モデルを活用することで、推論時に新たな芸術的コントロールが公開できることを示す。
論文 参考訳(メタデータ) (2023-07-09T12:13:43Z) - Multimodal Garment Designer: Human-Centric Latent Diffusion Models for
Fashion Image Editing [40.70752781891058]
本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。
我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。
タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
論文 参考訳(メタデータ) (2023-04-04T18:03:04Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z) - Style-Based Global Appearance Flow for Virtual Try-On [119.95115739956661]
本研究では, 新たなグローバルな外見フロー推定モデルを提案する。
仮想試行ベンチマークによる実験結果から,本手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2022-04-03T10:58:04Z) - Weakly Supervised High-Fidelity Clothing Model Generation [67.32235668920192]
本稿では,このシナリオに対応するために,DGP (Deep Generative Projection) と呼ばれる安価でスケーラブルな弱教師付き手法を提案する。
衣服と身体の粗いアライメントをStyleGAN空間に投影することで、フォトリアリスティックな着用結果が得られることを示す。
論文 参考訳(メタデータ) (2021-12-14T07:15:15Z) - Towards Photo-Realistic Virtual Try-On by Adaptively
Generating$\leftrightarrow$Preserving Image Content [85.24260811659094]
本稿では,適応コンテンツ生成・保存ネットワーク(ACGPN)という新しいビジュアル・トライオン・ネットワークを提案する。
ACGPNはまず、試行錯誤後に変更される参照画像のセマンティックレイアウトを予測する。
第二に、服のワープモジュールは、生成されたセマンティックレイアウトに従って衣服の画像をワープする。
第3に、コンテンツ融合のための塗装モジュールは、すべての情報(例えば、参照画像、セマンティックレイアウト、歪んだ衣服)を統合して、人間の身体の各意味部分を適応的に生成する。
論文 参考訳(メタデータ) (2020-03-12T15:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。