論文の概要: IMAGDressing-v1: Customizable Virtual Dressing
- arxiv url: http://arxiv.org/abs/2407.12705v2
- Date: Tue, 6 Aug 2024 13:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 18:32:55.226575
- Title: IMAGDressing-v1: Customizable Virtual Dressing
- Title(参考訳): IMAGDressing-v1: カスタマイズ可能な仮想描画
- Authors: Fei Shen, Xin Jiang, Xin He, Hu Ye, Cong Wang, Xiaoyu Du, Zechao Li, Jinhui Tang,
- Abstract要約: IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
- 参考スコア(独自算出の注目度): 58.44155202253754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latest advances have achieved realistic virtual try-on (VTON) through localized garment inpainting using latent diffusion models, significantly enhancing consumers' online shopping experience. However, existing VTON technologies neglect the need for merchants to showcase garments comprehensively, including flexible control over garments, optional faces, poses, and scenes. To address this issue, we define a virtual dressing (VD) task focused on generating freely editable human images with fixed garments and optional conditions. Meanwhile, we design a comprehensive affinity metric index (CAMI) to evaluate the consistency between generated images and reference garments. Then, we propose IMAGDressing-v1, which incorporates a garment UNet that captures semantic features from CLIP and texture features from VAE. We present a hybrid attention module, including a frozen self-attention and a trainable cross-attention, to integrate garment features from the garment UNet into a frozen denoising UNet, ensuring users can control different scenes through text. IMAGDressing-v1 can be combined with other extension plugins, such as ControlNet and IP-Adapter, to enhance the diversity and controllability of generated images. Furthermore, to address the lack of data, we release the interactive garment pairing (IGPair) dataset, containing over 300,000 pairs of clothing and dressed images, and establish a standard pipeline for data assembly. Extensive experiments demonstrate that our IMAGDressing-v1 achieves state-of-the-art human image synthesis performance under various controlled conditions. The code and model will be available at https://github.com/muzishen/IMAGDressing.
- Abstract(参考訳): 最近の進歩は、潜伏拡散モデルを用いた局所的な衣料塗布によるリアルな仮想試着(VTON)を実現し、消費者のオンラインショッピング体験を著しく向上させた。
しかしながら、既存のVTON技術は、衣料品、オプションの顔、ポーズ、シーンの柔軟な制御など、商人が衣料品を包括的に展示する必要性を無視している。
この問題に対処するために、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成することに焦点を当てた仮想ドレッシング(VD)タスクを定義する。
一方、生成した画像と参照衣料との整合性を評価するために、包括的親和性指標(CAMI)を設計する。
次に,CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んだIMAGDressing-v1を提案する。
本稿では,凍結した自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
IMAGDressing-v1は、ControlNetやIP-Adapterといった他の拡張プラグインと組み合わせることで、生成された画像の多様性と制御性を高めることができる。
さらに、データ不足に対処するため、30万組以上の衣服と着替え画像を含む対話型衣服ペアリング(IGPair)データセットをリリースし、データアセンブリの標準パイプラインを確立する。
我々のIMAGDressing-v1は、様々な制御条件下で、最先端のヒト画像合成性能を達成することを実証した。
コードとモデルはhttps://github.com/muzishen/IMAGDressing.comから入手できる。
関連論文リスト
- Try-On-Adapter: A Simple and Flexible Try-On Paradigm [42.2724473500475]
オンラインショッピングで広く使われている画像ベースの仮想試着は、特定の衣服に着飾った自然な服装の人のイメージを作成することを目的としている。
従来の手法では、元のモデルの立像の特定の部分をマスキングし、マスクされた領域に塗布することで、対応する参照服を身に着けたモデルのリアルなイメージを生成する。
本稿では,既存の塗装パラダイムと異なる塗装パラダイムであるトライオンアダプタ(TOA)を提案する。
論文 参考訳(メタデータ) (2024-11-15T13:35:58Z) - FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on [73.13242624924814]
Diffusion Transformer (DiT) を用いた高忠実度仮想試行用ガーメント知覚増強技術FitDiT
布地テクスチャ抽出装置を導入し, 布地や模様, テクスチャなどのリッチな細部を, よりよく捉えられるようにした。
また,クロスカテゴリー試着中にマスク領域全体を埋める衣服の発生を防止し,衣料の正しい長さに適応する拡張緩和マスク戦略を採用した。
論文 参考訳(メタデータ) (2024-11-15T11:02:23Z) - MV-VTON: Multi-View Virtual Try-On with Diffusion Models [91.71150387151042]
画像ベースの仮想試着の目的は、与えられた衣服を自然に身に着けている対象者の画像を生成することである。
既存の方法は、前頭服を用いた正面試着のみに焦点をあてる方法である。
本稿では,服の複数ビューからドレッシング結果を再構築することを目的としたMulti-View Virtual Try-ON(MV-VTON)を紹介する。
論文 参考訳(メタデータ) (2024-04-26T12:27:57Z) - Magic Clothing: Controllable Garment-Driven Image Synthesis [7.46772222515689]
我々は,未探索の衣服駆動画像合成タスクのための潜在拡散モデル(LDM)に基づくネットワークアーキテクチャであるMagic Clothingを提案する。
多様なテキストプロンプトを持つ対象の衣服を装着したカスタマイズされた文字を生成することを目指して、画像制御性が最も重要な問題である。
衣料品の特徴を捉えるために衣服抽出装置を導入し, 自覚融合を用いて予め訓練したLCDに組み込む。
論文 参考訳(メタデータ) (2024-04-15T07:15:39Z) - StableGarment: Garment-Centric Generation via Stable Diffusion [29.5112874761836]
衣服中心(GC)生成タスクに対処するための統合フレームワークであるStableGarmentを紹介する。
我々のソリューションは、付加的な自己注意層を備えたデノイングUNetのトレーニング可能なコピーである衣料エンコーダの開発である。
専用のtry-on ControlNetを組み込むことで、StableGarmentは仮想try-onタスクを精度良く実行できる。
論文 参考訳(メタデータ) (2024-03-16T03:05:07Z) - StableVITON: Learning Semantic Correspondence with Latent Diffusion
Model for Virtual Try-On [35.227896906556026]
衣服画像と人物画像が与えられた場合、画像ベースの仮想試行は、衣服画像の特徴を自然に正確に反映した、カスタマイズされた画像を生成することを目的としている。
本研究では,事前学習した拡散モデルの適用性を拡張し,仮想試行作業に独立して利用できるようにすることを目的とする。
提案するゼロ・クロスアテンションブロックは, 意味的対応を学習することで衣服の細部を保存できるだけでなく, ワープ過程における事前学習モデル固有の知識を利用して高忠実度画像を生成する。
論文 参考訳(メタデータ) (2023-12-04T08:27:59Z) - PASTA-GAN++: A Versatile Framework for High-Resolution Unpaired Virtual
Try-on [70.12285433529998]
PASTA-GAN++は高解像度の仮想試行のための汎用システムである。
教師なしのトレーニング、任意の衣服カテゴリー、制御可能な衣服編集をサポートする。
論文 参考訳(メタデータ) (2022-07-27T11:47:49Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z) - Towards Scalable Unpaired Virtual Try-On via Patch-Routed
Spatially-Adaptive GAN [66.3650689395967]
本稿では,現実世界の仮想試行を支援するテクスチャ保存型終末ネットワークであるPAtch-routed SpaTially-Adaptive GAN (PASTA-GAN)を提案する。
PASTA-GANは、各衣服のスタイルと空間情報をアンタングルするために、革新的なパッチを外したアンタングルモジュールで構成されている。
論文 参考訳(メタデータ) (2021-11-20T08:36:12Z) - Shape Controllable Virtual Try-on for Underwear Models [0.0]
そこで我々は,下着モデル用の衣服を着る形状制御可能な仮想トライオンネットワーク(SC-VTON)を提案する。
SC-VTONは、モデルと衣服の情報を統合し、歪んだ衣服画像を生成する。
本手法は, 詳細なテクスチャで高分解能な結果が得られる。
論文 参考訳(メタデータ) (2021-07-28T04:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。