論文の概要: Improving Virtual Try-On with Garment-focused Diffusion Models
- arxiv url: http://arxiv.org/abs/2409.08258v1
- Date: Thu, 12 Sep 2024 17:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 15:24:38.798877
- Title: Improving Virtual Try-On with Garment-focused Diffusion Models
- Title(参考訳): ガーメント中心拡散モデルによる仮想トライオンの改善
- Authors: Siqi Wan, Yehao Li, Jingwen Chen, Yingwei Pan, Ting Yao, Yang Cao, Tao Mei,
- Abstract要約: 拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。
私たちは新しい拡散モデル、すなわちGarDiffを作り、衣服中心の拡散プロセスを引き起こします。
VITON-HDおよびDressCodeデータセットの実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
- 参考スコア(独自算出の注目度): 91.95830983115474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have led to the revolutionizing of generative modeling in numerous image synthesis tasks. Nevertheless, it is not trivial to directly apply diffusion models for synthesizing an image of a target person wearing a given in-shop garment, i.e., image-based virtual try-on (VTON) task. The difficulty originates from the aspect that the diffusion process should not only produce holistically high-fidelity photorealistic image of the target person, but also locally preserve every appearance and texture detail of the given garment. To address this, we shape a new Diffusion model, namely GarDiff, which triggers the garment-focused diffusion process with amplified guidance of both basic visual appearance and detailed textures (i.e., high-frequency details) derived from the given garment. GarDiff first remoulds a pre-trained latent diffusion model with additional appearance priors derived from the CLIP and VAE encodings of the reference garment. Meanwhile, a novel garment-focused adapter is integrated into the UNet of diffusion model, pursuing local fine-grained alignment with the visual appearance of reference garment and human pose. We specifically design an appearance loss over the synthesized garment to enhance the crucial, high-frequency details. Extensive experiments on VITON-HD and DressCode datasets demonstrate the superiority of our GarDiff when compared to state-of-the-art VTON approaches. Code is publicly available at: \href{https://github.com/siqi0905/GarDiff/tree/master}{https://github.com/siqi0905/GarDiff/tree/master}.
- Abstract(参考訳): 拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。
それでも、対象者の画像、すなわち画像ベースの仮想試行(VTON)タスクを合成するために拡散モデルを直接適用するのは簡単ではない。
この困難さは、拡散過程が対象者の全体像だけでなく、与えられた衣服の外観やテクスチャの詳細を局所的に保存することにも起因している。
これに対処するため、我々はGarDiffと呼ばれる新しい拡散モデルを作成し、その服から得られる基本的な視覚的外観と詳細なテクスチャ(すなわち高周波詳細)の両方を増幅して、衣服中心の拡散プロセスを誘発する。
GarDiff はまず、CLIP および VAE エンコーディングから派生した、事前訓練された潜伏拡散モデルを再成形する。
一方、新しい衣料着着は拡散モデルのUNetに統合され、参照服や人間のポーズの視覚的外観と局所的なきめ細かいアライメントが追求される。
具体的には,合成衣料の外観損失を,重要で高周波な細部を強化するために設計する。
VITON-HDとDressCodeのデータセットに関する大規模な実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
コードは以下で公開されている。 \href{https://github.com/siqi0905/GarDiff/tree/master}{https://github.com/siqi0905/GarDiff/tree/master}。
関連論文リスト
- GraVITON: Graph based garment warping with attention guided inversion for Virtual-tryon [5.790630195329777]
衣服のフローにおけるコンテキストの価値を強調する新しいグラフベースのワープ手法を提案する。
提案手法は,VITON-HDとDresscodeのデータセットで検証され,衣服のワープ,テクスチャ保存,および全体リアリズムの大幅な改善を示す。
論文 参考訳(メタデータ) (2024-06-04T10:29:18Z) - FLDM-VTON: Faithful Latent Diffusion Model for Virtual Try-on [21.34959824429241]
FLDM-VTONは、VTONのためのFhithful Latent Diffusion Modelである。
着物は出発点と現地の条件の両方に組み込まれ、忠実な着物のモデルを提供する。
写真のリアルな試着画像を、忠実な衣服のディテールで生成することができる。
論文 参考訳(メタデータ) (2024-04-22T13:21:09Z) - Texture-Preserving Diffusion Models for High-Fidelity Virtual Try-On [29.217423805933727]
拡散モデルに基づくアプローチは,画像合成タスクに優れており,近年普及している。
本稿では,仮想試行のためのテクスチャ保存拡散(TPD)モデルを提案する。
第2に,被写体と参照衣料画像に基づいて,正確な塗布マスクを推定する拡散に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T12:43:22Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - WarpDiffusion: Efficient Diffusion Model for High-Fidelity Virtual
Try-on [81.15988741258683]
画像ベースの仮想トライオン(VITON)は、ホップ内の衣服イメージを対象人物に転送することを目的としている。
現在の方法では、衣服と肌の境界付近の合成品質や、ねじれた衣服のしわや影のような現実的な効果を見落としていることが多い。
本稿では,新しい情報的・局所的な特徴的注意機構を通じてワーピングと拡散に基づくパラダイムを橋渡しするワープ拡散を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:34:32Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Taming the Power of Diffusion Models for High-Quality Virtual Try-On
with Appearance Flow [24.187109053871833]
仮想試着は、人間と衣服の両方の詳細を保存しながら、ある画像から別の画像へ衣服を転送することを目的とした、重要な画像合成タスクである。
本稿では,拡散モデルの生成を効果的に導くために,ワープモジュールを利用する例に基づく塗装手法を提案する。
我々のアプローチ、すなわちDCI-VTON(Diffusion-based Conditional Inpainting for Virtual Try-ON)は、拡散モデルのパワーを効果的に活用する。
論文 参考訳(メタデータ) (2023-08-11T12:23:09Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。