論文の概要: HieraFashDiff: Hierarchical Fashion Design with Multi-stage Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.07450v4
- Date: Thu, 12 Dec 2024 10:36:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:29:55.278260
- Title: HieraFashDiff: Hierarchical Fashion Design with Multi-stage Diffusion Models
- Title(参考訳): HieraFashDiff:多段階拡散モデルを用いた階層的ファッション設計
- Authors: Zhifeng Xie, Hao Li, Huiming Ding, Mengtian Li, Xinhan Di, Ying Cao,
- Abstract要約: ファッションデザインに適した,ヒエラファッシュディフ(HieraFashDiff)という新しい階層的拡散型フレームワークを提案する。
我々のモデルは、デノシングプロセスを2段階に展開することで、実用的なファッションデザインワークフローを模倣するように設計されている。
本モデルでは,ファッションデザイン生成と局所的なきめ細かい編集を一つのフレームワークでサポートする。
- 参考スコア(独自算出の注目度): 17.74292177764933
- License:
- Abstract: Fashion design is a challenging and complex process.Recent works on fashion generation and editing are all agnostic of the actual fashion design process, which limits their usage in practice.In this paper, we propose a novel hierarchical diffusion-based framework tailored for fashion design, coined as HieraFashDiff. Our model is designed to mimic the practical fashion design workflow, by unraveling the denosing process into two successive stages: 1) an ideation stage that generates design proposals given high-level concepts and 2) an iteration stage that continuously refines the proposals using low-level attributes. Our model supports fashion design generation and fine-grained local editing in a single framework. To train our model, we contribute a new dataset of full-body fashion images annotated with hierarchical text descriptions. Extensive evaluations show that, as compared to prior approaches, our method can generate fashion designs and edited results with higher fidelity and better prompt adherence, showing its promising potential to augment the practical fashion design workflow. Code and Dataset are available at https://github.com/haoli-zbdbc/hierafashdiff.
- Abstract(参考訳): 本稿では,ファッションデザインに適した新しい階層的拡散型フレームワーク,HieraFashDiffを提案する。
私たちのモデルは、デノシングプロセスを2段階に展開することで、実用的なファッションデザインワークフローを模倣するように設計されています。
1)高レベルの概念を与えられた設計提案を生成する構想段階
2) 低レベルの属性を使って提案を継続的に洗練するイテレーションステージ。
本モデルでは,ファッションデザイン生成と局所的なきめ細かい編集を一つのフレームワークでサポートする。
モデルをトレーニングするために,階層的なテキスト記述を付加したフルボディのファッションイメージのデータセットを新たに提供した。
提案手法は, 従来手法と比較して, ファッションデザインを創出し, より忠実で, より迅速な順守を図り, 実用的なファッションデザインのワークフローを強化する可能性を示した。
コードとデータセットはhttps://github.com/haoli-zbdbc/hierafashdiff.comで入手できる。
関連論文リスト
- Learning to Synthesize Compatible Fashion Items Using Semantic Alignment and Collocation Classification: An Outfit Generation Framework [59.09707044733695]
衣料品全体を合成することを目的とした,新しい衣料品生成フレームワークであるOutfitGANを提案する。
OutfitGANにはセマンティックアライメントモジュールがあり、既存のファッションアイテムと合成アイテムのマッピング対応を特徴付ける。
提案モデルの性能を評価するため,20,000のファッション衣装からなる大規模データセットを構築した。
論文 参考訳(メタデータ) (2025-02-05T12:13:53Z) - EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。
このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。
確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文 参考訳(メタデータ) (2025-01-08T18:59:35Z) - FashionSD-X: Multimodal Fashion Garment Synthesis using Latent Diffusion [11.646594594565098]
本研究では,遅延拡散モデルを用いて,ファッションデザインのプロセスを変えるための新しい生成パイプラインを提案する。
我々は、スケッチデータを統合することで、マルチモーダルドレスコードやVITON-HDを含む最先端の仮想試行データセットを活用し、強化する。
論文 参考訳(メタデータ) (2024-04-26T14:59:42Z) - Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models [81.6240188672294]
グラフィックデザインでは、プロでないユーザは、限られたスキルとリソースのために視覚的に魅力的なレイアウトを作成するのに苦労することが多い。
レイアウト計画のための新しいマルチモーダル・インストラクション・フォロー・フレームワークを導入し、視覚的要素をカスタマイズしたレイアウトに簡単に配置できるようにする。
本手法は,非専門職の設計プロセスを単純化するだけでなく,数ショット GPT-4V モデルの性能を上回り,mIoU は Crello で 12% 向上する。
論文 参考訳(メタデータ) (2024-04-23T17:58:33Z) - Multimodal-Conditioned Latent Diffusion Models for Fashion Image Editing [40.70752781891058]
本稿では,マルチモーダルなファッション画像編集の課題に取り組む。
本研究の目的は,テキスト,人体ポーズ,衣料品スケッチ,布地テクスチャなど,マルチモーダルなプロンプトでガイドされた人中心のファッションイメージを作成することである。
論文 参考訳(メタデータ) (2024-03-21T20:43:10Z) - HAIFIT: Human-to-AI Fashion Image Translation [6.034505799418777]
本稿では,スケッチを高忠実なライフスタイルの衣料品画像に変換する新しいアプローチであるHAIFITを紹介する。
本手法は, ファッションデザインに欠かせない, 独特のスタイルの保存に優れ, 細部が複雑である。
論文 参考訳(メタデータ) (2024-03-13T16:06:07Z) - Towards Aligned Layout Generation via Diffusion Model with Aesthetic Constraints [53.66698106829144]
広い範囲のレイアウト生成タスクを処理する統一モデルを提案する。
このモデルは連続拡散モデルに基づいている。
実験結果から,LACEは高品質なレイアウトを生成することがわかった。
論文 参考訳(メタデータ) (2024-02-07T11:12:41Z) - FashionSAP: Symbols and Attributes Prompt for Fine-grained Fashion
Vision-Language Pre-training [12.652002299515864]
ファッションシンボルと属性プロンプト(FashionSAP)に基づく、きめ細かいファッションビジョン言語事前学習法を提案する。
まず,新しい抽象的なファッション概念層であるファッションシンボルを,異なるファッションアイテムを表現するために提案する。
次に、モデルにファッションアイテムの特定の属性を明示的に学習させる属性プロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-04-11T08:20:17Z) - Multimodal Garment Designer: Human-Centric Latent Diffusion Models for
Fashion Image Editing [40.70752781891058]
本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。
我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。
タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
論文 参考訳(メタデータ) (2023-04-04T18:03:04Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Modeling Artistic Workflows for Image Generation and Editing [83.43047077223947]
与えられた芸術的ワークフローに従う生成モデルを提案する。
既存の芸術作品の多段画像編集だけでなく、多段画像生成も可能である。
論文 参考訳(メタデータ) (2020-07-14T17:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。