論文の概要: Multi-Garment Customized Model Generation
- arxiv url: http://arxiv.org/abs/2408.05206v1
- Date: Fri, 9 Aug 2024 17:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 15:05:23.665017
- Title: Multi-Garment Customized Model Generation
- Title(参考訳): マルチゲージカスタマイズモデル生成
- Authors: Yichen Liu, Penghui Du, Yi Liu Quanwei Zhang,
- Abstract要約: マルチゲージカスタマイズモデル生成は、潜在拡散モデル(LDM)に基づく統合フレームワークである
本フレームワークは,脱結合型マルチガーメント機能融合による複数衣服の条件生成を支援する。
提案する衣料エンコーダは,他の拡張モジュールと組み合わせることができるプラグアンドプレイモジュールである。
- 参考スコア(独自算出の注目度): 3.1679243514285194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Multi-Garment Customized Model Generation, a unified framework based on Latent Diffusion Models (LDMs) aimed at addressing the unexplored task of synthesizing images with free combinations of multiple pieces of clothing. The method focuses on generating customized models wearing various targeted outfits according to different text prompts. The primary challenge lies in maintaining the natural appearance of the dressed model while preserving the complex textures of each piece of clothing, ensuring that the information from different garments does not interfere with each other. To tackle these challenges, we first developed a garment encoder, which is a trainable UNet copy with shared weights, capable of extracting detailed features of garments in parallel. Secondly, our framework supports the conditional generation of multiple garments through decoupled multi-garment feature fusion, allowing multiple clothing features to be injected into the backbone network, significantly alleviating conflicts between garment information. Additionally, the proposed garment encoder is a plug-and-play module that can be combined with other extension modules such as IP-Adapter and ControlNet, enhancing the diversity and controllability of the generated models. Extensive experiments demonstrate the superiority of our approach over existing alternatives, opening up new avenues for the task of generating images with multiple-piece clothing combinations
- Abstract(参考訳): 本稿では,複数の衣服を自由な組み合わせで合成する未探索課題に対処することを目的とした,遅延拡散モデル(LDM)に基づく統合フレームワークであるマルチガーメントカスタマイズモデル生成を提案する。
この方法は、さまざまなテキストプロンプトに基づいて、さまざまなターゲットの衣装を身に着けたカスタマイズされたモデルを生成することに焦点を当てている。
第一の課題は、衣服の複雑なテクスチャを保ちながら、衣服の自然な外観を維持することであり、異なる衣服からの情報が互いに干渉しないようにすることである。
これらの課題に対処するために,我々はまず,共有重み付きトレーニング可能なUNetコピーである衣料エンコーダを開発した。
第2に,脱結合型マルチガーメント機能融合による複数衣服の条件生成をサポートし,複数の衣服特徴をバックボーンネットワークに注入し,衣服情報間の衝突を著しく軽減する。
さらに、提案する衣料エンコーダは、IP-AdapterやControlNetといった他の拡張モジュールと組み合わせることができるプラグイン・アンド・プレイモジュールであり、生成されたモデルの多様性と制御性を高める。
大規模な実験により、既存の代替品よりもアプローチが優れていることが示され、複数ピースの衣料品の組み合わせで画像を生成するための新たな道が開かれた。
関連論文リスト
- TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation [67.97044071594257]
TweedieMixは、カスタマイズされた拡散モデルを構成する新しい方法である。
我々のフレームワークは、画像とビデオの拡散モデルに力ずくで拡張できる。
論文 参考訳(メタデータ) (2024-10-08T01:06:01Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - AnyFit: Controllable Virtual Try-on for Any Combination of Attire Across Any Scenario [50.62711489896909]
AnyFitは、高解像度のベンチマークと実世界のデータのベースラインを、大きなギャップで上回っている。
AnyFitの高忠実度バーチャル試作品における印象的なパフォーマンスは、あらゆるイメージから見ても、ファッションコミュニティにおける将来の研究の新たな道を切り開くものです。
論文 参考訳(メタデータ) (2024-05-28T13:33:08Z) - MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation [70.83668869857665]
MMTryonはマルチモーダルなマルチ参照VIrtual Try-ONフレームワークである。
テキスト命令と複数の衣料品画像を入力として、高品質な合成試行結果を生成することができる。
論文 参考訳(メタデータ) (2024-05-01T11:04:22Z) - Magic Clothing: Controllable Garment-Driven Image Synthesis [7.46772222515689]
我々は,未探索の衣服駆動画像合成タスクのための潜在拡散モデル(LDM)に基づくネットワークアーキテクチャであるMagic Clothingを提案する。
多様なテキストプロンプトを持つ対象の衣服を装着したカスタマイズされた文字を生成することを目指して、画像制御性が最も重要な問題である。
衣料品の特徴を捉えるために衣服抽出装置を導入し, 自覚融合を用いて予め訓練したLCDに組み込む。
論文 参考訳(メタデータ) (2024-04-15T07:15:39Z) - High-Quality Animatable Dynamic Garment Reconstruction from Monocular
Videos [51.8323369577494]
そこで本研究では,モノクロビデオから高品質なアニマタブルな動的衣服をスキャンデータに頼らずに回収する手法を提案する。
様々な不明瞭なポーズに対する合理的な変形を生成するために,学習可能な衣服変形ネットワークを提案する。
提案手法は,高品質な動的衣服をコヒーレントな表面形状で再構成し,見知らぬポーズで容易にアニメーションできることを示す。
論文 参考訳(メタデータ) (2023-11-02T13:16:27Z) - Transformer-based Graph Neural Networks for Outfit Generation [22.86041284499166]
TGNNは、畳み込みグラフニューラルネットワークにおけるメッセージパッシングステップとして、多面的な自己注意を利用して、グラフ内の衣服アイテム間の関係をキャプチャする。
畳み込みグラフニューラルネットワークにおけるメッセージパッシングステップとして,多面的な自己注意を利用して,グラフ内の衣服アイテム間の関係をキャプチャするトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-17T09:18:45Z) - ClothCombo: Modeling Inter-Cloth Interaction for Draping Multi-Layered
Clothes [3.8079353598215757]
人間の3次元モデルに任意の服の組み合わせを描画するパイプラインであるClathComboを提示する。
本手法は,GNNに基づくネットワークを用いて,異なる階層の衣服間の相互作用を効率的にモデル化する。
論文 参考訳(メタデータ) (2023-04-07T06:23:54Z) - Toward Accurate and Realistic Outfits Visualization with Attention to
Details [10.655149697873716]
商用アプリケーションに必要な重要な視覚的詳細を捉えるために,アウトフィット・ビジュアライゼーション・ネットを提案する。
OVNetは,1)意味的レイアウト生成器と2)複数の協調ワープを用いた画像生成パイプラインから構成される。
この手法を利用した対話型インターフェースは,ファッションeコマースのウェブサイトに展開され,圧倒的に肯定的なフィードバックを受けている。
論文 参考訳(メタデータ) (2021-06-11T19:53:34Z) - SMPLicit: Topology-aware Generative Model for Clothed People [65.84665248796615]
SMPLicitは、身体のポーズ、形状、衣服の形状を共同で表現する新しい生成モデルである。
実験では,3dスキャンの装着や,服装者の画像の3d再構成にsmplicitが容易に利用できることを示す。
論文 参考訳(メタデータ) (2021-03-11T18:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。