論文の概要: Magic Clothing: Controllable Garment-Driven Image Synthesis
- arxiv url: http://arxiv.org/abs/2404.09512v1
- Date: Mon, 15 Apr 2024 07:15:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 13:09:46.135715
- Title: Magic Clothing: Controllable Garment-Driven Image Synthesis
- Title(参考訳): Magic Clothing: 制御可能なガーメント駆動画像合成
- Authors: Weifeng Chen, Tao Gu, Yuhao Xu, Chengcai Chen,
- Abstract要約: 我々は,未探索の衣服駆動画像合成タスクのための潜在拡散モデル(LDM)に基づくネットワークアーキテクチャであるMagic Clothingを提案する。
多様なテキストプロンプトを持つ対象の衣服を装着したカスタマイズされた文字を生成することを目指して、画像制御性が最も重要な問題である。
衣料品の特徴を捉えるために衣服抽出装置を導入し, 自覚融合を用いて予め訓練したLCDに組み込む。
- 参考スコア(独自算出の注目度): 7.46772222515689
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose Magic Clothing, a latent diffusion model (LDM)-based network architecture for an unexplored garment-driven image synthesis task. Aiming at generating customized characters wearing the target garments with diverse text prompts, the image controllability is the most critical issue, i.e., to preserve the garment details and maintain faithfulness to the text prompts. To this end, we introduce a garment extractor to capture the detailed garment features, and employ self-attention fusion to incorporate them into the pretrained LDMs, ensuring that the garment details remain unchanged on the target character. Then, we leverage the joint classifier-free guidance to balance the control of garment features and text prompts over the generated results. Meanwhile, the proposed garment extractor is a plug-in module applicable to various finetuned LDMs, and it can be combined with other extensions like ControlNet and IP-Adapter to enhance the diversity and controllability of the generated characters. Furthermore, we design Matched-Points-LPIPS (MP-LPIPS), a robust metric for evaluating the consistency of the target image to the source garment. Extensive experiments demonstrate that our Magic Clothing achieves state-of-the-art results under various conditional controls for garment-driven image synthesis. Our source code is available at https://github.com/ShineChen1024/MagicClothing.
- Abstract(参考訳): 我々は,未探索の衣服駆動画像合成タスクのための潜在拡散モデル(LDM)に基づくネットワークアーキテクチャであるMagic Clothingを提案する。
多様なテキストプロンプトを持つ対象の衣服を装着したカスタマイズされた文字を生成することを目的として、画像制御性は最も重要な問題であり、例えば、衣服の詳細を保存し、テキストプロンプトへの忠実性を維持することである。
この目的のために, 被服の特徴を捉えた衣服抽出装置を導入し, 自己注意融合を用いて, 予め訓練したLCDに組み込むことにより, 被服の詳細が目標キャラクタに変化しないことを保証した。
そして, 共同分類器フリーガイダンスを利用して, 生成した結果に対して, 衣服の特徴とテキストプロンプトのバランスをとる。
一方,提案する衣料抽出器は様々な微調整 LDM に適用可能なプラグインモジュールであり,制御ネットやIP-Adapter といった他の拡張と組み合わせることで,生成した文字の多様性と制御性を高めることができる。
さらに,対象画像と被写体との整合性を評価するための頑健な指標であるMatched-Points-LPIPS (MP-LPIPS) を設計した。
広汎な実験により, 衣服駆動画像合成のための様々な条件制御の下で, 我々のマジック・クローチングが最先端の成果を達成できることが証明された。
ソースコードはhttps://github.com/ShineChen1024/MagicClothing.comで公開されています。
関連論文リスト
- MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation [70.83668869857665]
MMTryonはマルチモーダルなマルチ参照VIrtual Try-ONフレームワークである。
テキスト命令と複数の衣料品画像とを入力として、高品質な合成試行結果を生成することができる。
論文 参考訳(メタデータ) (2024-05-01T11:04:22Z) - LASER: Tuning-Free LLM-Driven Attention Control for Efficient Text-conditioned Image-to-Animation [62.232361821779335]
本稿では,プロンプト・アウェア・編集の進歩的プロセスであるStablEアニメーションジェネレーション(LASER)をカプセル化した,チューニング不要なアテンション制御フレームワークを提案する。
アニメーションの整合性を維持するために,モデルの空間的特徴と自己認識機構を操作する。
空間的特徴と自己注意の厳密な制御により,画像の構造的一貫性が確保される。
論文 参考訳(メタデータ) (2024-04-21T07:13:56Z) - StableGarment: Garment-Centric Generation via Stable Diffusion [29.5112874761836]
衣服中心(GC)生成タスクに対処するための統合フレームワークであるStableGarmentを紹介する。
我々のソリューションは、付加的な自己注意層を備えたデノイングUNetのトレーニング可能なコピーである衣料エンコーダの開発である。
専用のtry-on ControlNetを組み込むことで、StableGarmentは仮想try-onタスクを精度良く実行できる。
論文 参考訳(メタデータ) (2024-03-16T03:05:07Z) - TD-GEM: Text-Driven Garment Editing Mapper [15.121103742607383]
ファッションアイテムをアンタングルに編集するためのテキスト駆動型ガーメント編集マッパー(TD-GEM)を提案する。
次に、最適化に基づくContrastive Language- Image Pre-trainingを用いて、ファッションイメージの潜在表現をガイドする。
我々のTD-GEMは、テキストプロンプトで表現された対象属性に従って、正確に画像を操作します。
論文 参考訳(メタデータ) (2023-05-29T14:31:54Z) - StyleHumanCLIP: Text-guided Garment Manipulation for StyleGAN-Human [1.529342790344802]
本論文は、フルボディの人体画像における衣服編集のためのスタイルGANのテキスト誘導制御に取り組む。
本稿では,注意に基づく潜在コードマッパーを用いたテキスト誘導フルボディ画像合成のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-26T09:21:56Z) - ARMANI: Part-level Garment-Text Alignment for Unified Cross-Modal
Fashion Design [66.68194916359309]
クロスモーダルなファッション画像合成は、世代領域において最も有望な方向の1つとして現れてきた。
MaskCLIPは衣服をセマンティックな部分に分解し、視覚情報とテキスト情報の微粒化と意味的に正確なアライメントを確保する。
ArmANIは、学習したクロスモーダルコードブックに基づいて画像を一様トークンに識別し、Transformerを使用して実際の画像に対する画像トークンの分布をモデル化する。
論文 参考訳(メタデータ) (2022-08-11T03:44:02Z) - Arbitrary Virtual Try-On Network: Characteristics Preservation and
Trade-off between Body and Clothing [85.74977256940855]
本報告では,オールタイプの衣料品を対象としたArbitrary Virtual Try-On Network (AVTON)を提案する。
AVTONは、ターゲット服と参照者の特性を保存・交換することで、現実的な試行画像を合成することができる。
提案手法は,最先端の仮想試行法と比較して性能が向上する。
論文 参考訳(メタデータ) (2021-11-24T08:59:56Z) - Per Garment Capture and Synthesis for Real-time Virtual Try-on [15.128477359632262]
既存の画像ベースワークは、ターゲット服の1つの画像から試着画像を合成しようとする。
ポーズや体の大きさの変化によるしわの変化を再現することは困難であり、衣服を手で引っ張ったり伸ばしたりすることは困難である。
そこで本研究では,このようなリッチなインタラクションを,多くのシステマティックな画像を用いてトレーニングすることで,衣服ごとのキャプチャと合成のワークフローを提案する。
論文 参考訳(メタデータ) (2021-09-10T03:49:37Z) - Toward Accurate and Realistic Outfits Visualization with Attention to
Details [10.655149697873716]
商用アプリケーションに必要な重要な視覚的詳細を捉えるために,アウトフィット・ビジュアライゼーション・ネットを提案する。
OVNetは,1)意味的レイアウト生成器と2)複数の協調ワープを用いた画像生成パイプラインから構成される。
この手法を利用した対話型インターフェースは,ファッションeコマースのウェブサイトに展開され,圧倒的に肯定的なフィードバックを受けている。
論文 参考訳(メタデータ) (2021-06-11T19:53:34Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - BCNet: Learning Body and Cloth Shape from A Single Image [56.486796244320125]
SMPL上には層状衣服表現が提案され,ボディメッシュとは独立に衣服のスキンウェイトを新たに作成する。
既存の手法と比較して,本手法はより多くの衣服カテゴリーをサポートし,より正確な形状を復元することができる。
論文 参考訳(メタデータ) (2020-04-01T03:41:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。