論文の概要: DiCTI: Diffusion-based Clothing Designer via Text-guided Input
- arxiv url: http://arxiv.org/abs/2407.03901v1
- Date: Thu, 4 Jul 2024 12:48:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 18:03:13.835656
- Title: DiCTI: Diffusion-based Clothing Designer via Text-guided Input
- Title(参考訳): DiCTI:テキスト誘導入力による拡散型衣料デザイナー
- Authors: Ajda Lampe, Julija Stopar, Deepak Kumar Jain, Shinichiro Omachi, Peter Peer, Vitomir Štruc,
- Abstract要約: DiCTI (Diffusion-based Clothing Designer via Text-guided Input)は、デザイナーがテキスト入力のみを使用してファッション関連のアイデアを素早く視覚化できるようにする。
テキスト入力に条件付けされた強力な拡散ベースの塗装モデルを活用することで、DICTIは、さまざまな衣料デザインで、説得力のある高品質な画像を合成することができる。
- 参考スコア(独自算出の注目度): 5.275658744475251
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent developments in deep generative models have opened up a wide range of opportunities for image synthesis, leading to significant changes in various creative fields, including the fashion industry. While numerous methods have been proposed to benefit buyers, particularly in virtual try-on applications, there has been relatively less focus on facilitating fast prototyping for designers and customers seeking to order new designs. To address this gap, we introduce DiCTI (Diffusion-based Clothing Designer via Text-guided Input), a straightforward yet highly effective approach that allows designers to quickly visualize fashion-related ideas using text inputs only. Given an image of a person and a description of the desired garments as input, DiCTI automatically generates multiple high-resolution, photorealistic images that capture the expressed semantics. By leveraging a powerful diffusion-based inpainting model conditioned on text inputs, DiCTI is able to synthesize convincing, high-quality images with varied clothing designs that viably follow the provided text descriptions, while being able to process very diverse and challenging inputs, captured in completely unconstrained settings. We evaluate DiCTI in comprehensive experiments on two different datasets (VITON-HD and Fashionpedia) and in comparison to the state-of-the-art (SoTa). The results of our experiments show that DiCTI convincingly outperforms the SoTA competitor in generating higher quality images with more elaborate garments and superior text prompt adherence, both according to standard quantitative evaluation measures and human ratings, generated as part of a user study.
- Abstract(参考訳): 近年の深層生成モデルの発展は、画像合成の幅広い機会を開き、ファッション産業を含む様々な創造的分野に大きな変化をもたらした。
特に仮想試用アプリケーションにおいて、購入者に利益をもたらすために多くの方法が提案されているが、デザイナーや顧客が新しいデザインを注文する際の高速なプロトタイピングを促進することには、比較的焦点が当てられていない。
このギャップに対処するために、Diffusion-based Clothing Designer via Text-guided Input(DICTI)を導入する。
人物の画像と所望の衣服を入力として記述すると、DiCTIは自動的に複数の高解像度のフォトリアリスティック画像を生成し、表現されたセマンティクスをキャプチャする。
テキスト入力に条件付けされた強力な拡散ベースのインペイントモデルを活用することで、DiCTIは、提供されたテキスト記述を確実に追従する様々な衣料品デザインの、説得力のある高品質な画像を合成できると同時に、非常に多彩で困難な入力を、完全に制約のない環境で処理することができる。
我々は2つの異なるデータセット(VITON-HDとFashionpedia)の総合的な実験でDiCTIを評価し、最先端(SoTa)と比較した。
実験の結果,DICTIは,標準的な定量的評価基準と人体評価に基づいて,より精巧な衣料で高品質な画像を生成することで,SoTAコンペティターを確実に上回っていることがわかった。
関連論文リスト
- TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - Multimodal-Conditioned Latent Diffusion Models for Fashion Image Editing [40.70752781891058]
本稿では,マルチモーダルなファッション画像編集の課題に取り組む。
本研究の目的は,テキスト,人体ポーズ,衣料品スケッチ,布地テクスチャなど,マルチモーダルなプロンプトでガイドされた人中心のファッションイメージを作成することである。
論文 参考訳(メタデータ) (2024-03-21T20:43:10Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Hierarchical Fashion Design with Multi-stage Diffusion Models [17.848891542772446]
クロスモーダルなファッション合成と編集は、ファッションデザイナーにインテリジェントなサポートを提供する。
現在の拡散モデルは、画像合成における可換安定性と制御性を示している。
共有多段階拡散モデルを用いた新しいファッションデザイン手法であるHieraFashDiffを提案する。
論文 参考訳(メタデータ) (2024-01-15T03:38:57Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Quality and Quantity: Unveiling a Million High-Quality Images for Text-to-Image Synthesis in Fashion Design [14.588884182004277]
Fashion-Diffusion データセットは,多年にわたる厳格な努力の成果である。
データセットは100万以上の高品質なファッションイメージで構成されており、詳細なテキスト記述と組み合わせている。
T2Iに基づくファッションデザイン分野の標準化を促進するために,ファッションデザインモデルの性能評価のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-19T06:43:11Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Multimodal Garment Designer: Human-Centric Latent Diffusion Models for
Fashion Image Editing [40.70752781891058]
本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。
我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。
タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
論文 参考訳(メタデータ) (2023-04-04T18:03:04Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - C-VTON: Context-Driven Image-Based Virtual Try-On Network [1.0832844764942349]
本稿では,選択した衣服を対象者に確実に転送するコンテキスト駆動型仮想トライオンネットワーク(C-VTON)を提案する。
C-VTONパイプラインのコアには、(i)入力画像中の人物のポーズに目的の衣服を効率よく整列する幾何マッチング手順と、(ii)最終試行結果に様々な種類の文脈情報を利用する強力な画像生成装置とがある。
論文 参考訳(メタデータ) (2022-12-08T17:56:34Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。