論文の概要: Magic Clothing: Controllable Garment-Driven Image Synthesis
- arxiv url: http://arxiv.org/abs/2404.09512v2
- Date: Wed, 24 Jul 2024 04:06:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 19:01:10.237325
- Title: Magic Clothing: Controllable Garment-Driven Image Synthesis
- Title(参考訳): Magic Clothing: 制御可能なガーメント駆動画像合成
- Authors: Weifeng Chen, Tao Gu, Yuhao Xu, Chengcai Chen,
- Abstract要約: 我々は,未探索の衣服駆動画像合成タスクのための潜在拡散モデル(LDM)に基づくネットワークアーキテクチャであるMagic Clothingを提案する。
多様なテキストプロンプトを持つ対象の衣服を装着したカスタマイズされた文字を生成することを目指して、画像制御性が最も重要な問題である。
衣料品の特徴を捉えるために衣服抽出装置を導入し, 自覚融合を用いて予め訓練したLCDに組み込む。
- 参考スコア(独自算出の注目度): 7.46772222515689
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose Magic Clothing, a latent diffusion model (LDM)-based network architecture for an unexplored garment-driven image synthesis task. Aiming at generating customized characters wearing the target garments with diverse text prompts, the image controllability is the most critical issue, i.e., to preserve the garment details and maintain faithfulness to the text prompts. To this end, we introduce a garment extractor to capture the detailed garment features, and employ self-attention fusion to incorporate them into the pretrained LDMs, ensuring that the garment details remain unchanged on the target character. Then, we leverage the joint classifier-free guidance to balance the control of garment features and text prompts over the generated results. Meanwhile, the proposed garment extractor is a plug-in module applicable to various finetuned LDMs, and it can be combined with other extensions like ControlNet and IP-Adapter to enhance the diversity and controllability of the generated characters. Furthermore, we design Matched-Points-LPIPS (MP-LPIPS), a robust metric for evaluating the consistency of the target image to the source garment. Extensive experiments demonstrate that our Magic Clothing achieves state-of-the-art results under various conditional controls for garment-driven image synthesis. Our source code is available at https://github.com/ShineChen1024/MagicClothing.
- Abstract(参考訳): 我々は,未探索の衣服駆動画像合成タスクのための潜在拡散モデル(LDM)に基づくネットワークアーキテクチャであるMagic Clothingを提案する。
多様なテキストプロンプトを持つ対象の衣服を装着したカスタマイズされた文字を生成することを目的として、画像制御性は最も重要な問題であり、例えば、衣服の詳細を保存し、テキストプロンプトへの忠実性を維持することである。
この目的のために, 被服の特徴を捉えた衣服抽出装置を導入し, 自己注意融合を用いて, 予め訓練したLCDに組み込むことにより, 被服の詳細が目標キャラクタに変化しないことを保証した。
そして, 共同分類器フリーガイダンスを利用して, 生成した結果に対して, 衣服の特徴とテキストプロンプトのバランスをとる。
一方,提案する衣料抽出器は様々な微調整 LDM に適用可能なプラグインモジュールであり,制御ネットやIP-Adapter といった他の拡張と組み合わせることで,生成した文字の多様性と制御性を高めることができる。
さらに,対象画像と被写体との整合性を評価するための頑健な指標であるMatched-Points-LPIPS (MP-LPIPS) を設計した。
広汎な実験により, 衣服駆動画像合成のための様々な条件制御の下で, 我々のマジック・クローチングが最先端の成果を達成できることが証明された。
ソースコードはhttps://github.com/ShineChen1024/MagicClothing.comで公開されています。
関連論文リスト
- FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on [73.13242624924814]
Diffusion Transformer (DiT) を用いた高忠実度仮想試行用ガーメント知覚増強技術FitDiT
布地テクスチャ抽出装置を導入し, 布地や模様, テクスチャなどのリッチな細部を, よりよく捉えられるようにした。
また,クロスカテゴリー試着中にマスク領域全体を埋める衣服の発生を防止し,衣料の正しい長さに適応する拡張緩和マスク戦略を採用した。
論文 参考訳(メタデータ) (2024-11-15T11:02:23Z) - Improving Virtual Try-On with Garment-focused Diffusion Models [91.95830983115474]
拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。
私たちは新しい拡散モデル、すなわちGarDiffを作り、衣服中心の拡散プロセスを引き起こします。
VITON-HDおよびDressCodeデータセットの実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
論文 参考訳(メタデータ) (2024-09-12T17:55:11Z) - Gaussian Garments: Reconstructing Simulation-Ready Clothing with Photorealistic Appearance from Multi-View Video [66.98046635045685]
マルチビュー映像からリアルなシミュレーション可能な衣服資産を再構築するための新しい手法を提案する。
本手法は,3次元メッシュとガウステクスチャを組み合わせた衣服を表現し,その色と高周波表面の細部をエンコードする。
この表現は、マルチビュービデオへの衣服のジオメトリの正確な登録を可能にし、照明効果からアルベドのテクスチャを遠ざけるのに役立つ。
論文 参考訳(メタデータ) (2024-09-12T16:26:47Z) - Multi-Garment Customized Model Generation [3.1679243514285194]
マルチゲージカスタマイズモデル生成は、潜在拡散モデル(LDM)に基づく統合フレームワークである
本フレームワークは,脱結合型マルチガーメント機能融合による複数衣服の条件生成を支援する。
提案する衣料エンコーダは,他の拡張モジュールと組み合わせることができるプラグアンドプレイモジュールである。
論文 参考訳(メタデータ) (2024-08-09T17:57:33Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - CLIP-Driven Cloth-Agnostic Feature Learning for Cloth-Changing Person Re-Identification [47.948622774810296]
衣服交換者再識別のためのCLIP-Driven Cloth-Agnostic Feature Learning (CCAF) という新しいフレームワークを提案する。
Invariant Feature Prompting (IFP) と Clothes Feature Minimization (CFM) の2つのモジュールがカスタム設計されている。
提案したCCAFの有効性を実証し、いくつかのCC-ReIDベンチマークで新たな最先端性能を実現した。
論文 参考訳(メタデータ) (2024-06-13T14:56:07Z) - StableGarment: Garment-Centric Generation via Stable Diffusion [29.5112874761836]
衣服中心(GC)生成タスクに対処するための統合フレームワークであるStableGarmentを紹介する。
我々のソリューションは、付加的な自己注意層を備えたデノイングUNetのトレーニング可能なコピーである衣料エンコーダの開発である。
専用のtry-on ControlNetを組み込むことで、StableGarmentは仮想try-onタスクを精度良く実行できる。
論文 参考訳(メタデータ) (2024-03-16T03:05:07Z) - TD-GEM: Text-Driven Garment Editing Mapper [15.121103742607383]
ファッションアイテムをアンタングルに編集するためのテキスト駆動型ガーメント編集マッパー(TD-GEM)を提案する。
次に、最適化に基づくContrastive Language- Image Pre-trainingを用いて、ファッションイメージの潜在表現をガイドする。
我々のTD-GEMは、テキストプロンプトで表現された対象属性に従って、正確に画像を操作します。
論文 参考訳(メタデータ) (2023-05-29T14:31:54Z) - Arbitrary Virtual Try-On Network: Characteristics Preservation and
Trade-off between Body and Clothing [85.74977256940855]
本報告では,オールタイプの衣料品を対象としたArbitrary Virtual Try-On Network (AVTON)を提案する。
AVTONは、ターゲット服と参照者の特性を保存・交換することで、現実的な試行画像を合成することができる。
提案手法は,最先端の仮想試行法と比較して性能が向上する。
論文 参考訳(メタデータ) (2021-11-24T08:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。