論文の概要: StableVITON: Learning Semantic Correspondence with Latent Diffusion
Model for Virtual Try-On
- arxiv url: http://arxiv.org/abs/2312.01725v1
- Date: Mon, 4 Dec 2023 08:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:50:31.955331
- Title: StableVITON: Learning Semantic Correspondence with Latent Diffusion
Model for Virtual Try-On
- Title(参考訳): StableVITON:仮想試行のための潜在拡散モデルを用いた意味対応学習
- Authors: Jeongho Kim, Gyojung Gu, Minho Park, Sunghyun Park, and Jaegul Choo
- Abstract要約: 衣服画像と人物画像が与えられた場合、画像ベースの仮想試行は、衣服画像の特徴を自然に正確に反映した、カスタマイズされた画像を生成することを目的としている。
本研究では,事前学習した拡散モデルの適用性を拡張し,仮想試行作業に独立して利用できるようにすることを目的とする。
提案するゼロ・クロスアテンションブロックは, 意味的対応を学習することで衣服の細部を保存できるだけでなく, ワープ過程における事前学習モデル固有の知識を利用して高忠実度画像を生成する。
- 参考スコア(独自算出の注目度): 35.227896906556026
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Given a clothing image and a person image, an image-based virtual try-on aims
to generate a customized image that appears natural and accurately reflects the
characteristics of the clothing image. In this work, we aim to expand the
applicability of the pre-trained diffusion model so that it can be utilized
independently for the virtual try-on task.The main challenge is to preserve the
clothing details while effectively utilizing the robust generative capability
of the pre-trained model. In order to tackle these issues, we propose
StableVITON, learning the semantic correspondence between the clothing and the
human body within the latent space of the pre-trained diffusion model in an
end-to-end manner. Our proposed zero cross-attention blocks not only preserve
the clothing details by learning the semantic correspondence but also generate
high-fidelity images by utilizing the inherent knowledge of the pre-trained
model in the warping process. Through our proposed novel attention total
variation loss and applying augmentation, we achieve the sharp attention map,
resulting in a more precise representation of clothing details. StableVITON
outperforms the baselines in qualitative and quantitative evaluation, showing
promising quality in arbitrary person images. Our code is available at
https://github.com/rlawjdghek/StableVITON.
- Abstract(参考訳): 衣服画像と人物画像が与えられた場合、画像ベースの仮想試着は、衣服画像の特徴を自然に正確に反映したカスタマイズされた画像を生成することを目的としている。
本研究は, トレーニング済み拡散モデルの適用性を拡張し, 仮想試行作業に独立して利用できるようにすることを目標とし, トレーニング済みモデルの堅牢な生成能力を有効活用しつつ, 衣服の細部を保存することを目的とする。
これらの課題に対処するために,我々は,事前学習した拡散モデルの潜在空間内で,衣服と人体間の意味的対応をエンドツーエンドに学習するStableVITONを提案する。
提案するゼロ・クロスアテンションブロックは, 意味的対応を学習することで衣服の細部を保存できるだけでなく, ワープ過程における事前学習モデル固有の知識を利用して高忠実度画像を生成する。
提案する新しい注意総変動損失と拡張の適用により、鋭い注意マップを実現し、衣服の詳細をより正確に表現する。
stablevitonは質的かつ定量的な評価においてベースラインを上回り、任意の人物画像に有望な品質を示す。
私たちのコードはhttps://github.com/rlawjdghek/StableVITON.comで利用可能です。
関連論文リスト
- Improving Virtual Try-On with Garment-focused Diffusion Models [91.95830983115474]
拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。
私たちは新しい拡散モデル、すなわちGarDiffを作り、衣服中心の拡散プロセスを引き起こします。
VITON-HDおよびDressCodeデータセットの実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
論文 参考訳(メタデータ) (2024-09-12T17:55:11Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - Masked Extended Attention for Zero-Shot Virtual Try-On In The Wild [17.025262797698364]
仮想トライオン(Virtual Try-On)は、人物や衣服の特徴を保ちながら、画像中の衣服を別のものに置き換えることを目的としている。
現在の文献では、タスクの教師付きアプローチを採用し、一般化を損なうとともに、重い計算を課している。
本稿では,衣服の着衣を参考に塗布するためのゼロショットトレーニングフリーな新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T17:45:37Z) - GraVITON: Graph based garment warping with attention guided inversion for Virtual-tryon [5.790630195329777]
衣服のフローにおけるコンテキストの価値を強調する新しいグラフベースのワープ手法を提案する。
提案手法は,VITON-HDとDresscodeのデータセットで検証され,衣服のワープ,テクスチャ保存,および全体リアリズムの大幅な改善を示す。
論文 参考訳(メタデータ) (2024-06-04T10:29:18Z) - Texture-Preserving Diffusion Models for High-Fidelity Virtual Try-On [29.217423805933727]
拡散モデルに基づくアプローチは,画像合成タスクに優れており,近年普及している。
本稿では,仮想試行のためのテクスチャ保存拡散(TPD)モデルを提案する。
第2に,被写体と参照衣料画像に基づいて,正確な塗布マスクを推定する拡散に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T12:43:22Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - Taming the Power of Diffusion Models for High-Quality Virtual Try-On
with Appearance Flow [24.187109053871833]
仮想試着は、人間と衣服の両方の詳細を保存しながら、ある画像から別の画像へ衣服を転送することを目的とした、重要な画像合成タスクである。
本稿では,拡散モデルの生成を効果的に導くために,ワープモジュールを利用する例に基づく塗装手法を提案する。
我々のアプローチ、すなわちDCI-VTON(Diffusion-based Conditional Inpainting for Virtual Try-ON)は、拡散モデルのパワーを効果的に活用する。
論文 参考訳(メタデータ) (2023-08-11T12:23:09Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - PoNA: Pose-guided Non-local Attention for Human Pose Transfer [105.14398322129024]
本稿では, 簡易ブロックを用いたGAN(Generative Adversarial Network)を用いた新しいポーズ転送手法を提案する。
我々のモデルはより鮮明でよりリアルな画像を生成するが、パラメータは少なく、速度も速い。
論文 参考訳(メタデータ) (2020-12-13T12:38:29Z) - Towards Photo-Realistic Virtual Try-On by Adaptively
Generating$\leftrightarrow$Preserving Image Content [85.24260811659094]
本稿では,適応コンテンツ生成・保存ネットワーク(ACGPN)という新しいビジュアル・トライオン・ネットワークを提案する。
ACGPNはまず、試行錯誤後に変更される参照画像のセマンティックレイアウトを予測する。
第二に、服のワープモジュールは、生成されたセマンティックレイアウトに従って衣服の画像をワープする。
第3に、コンテンツ融合のための塗装モジュールは、すべての情報(例えば、参照画像、セマンティックレイアウト、歪んだ衣服)を統合して、人間の身体の各意味部分を適応的に生成する。
論文 参考訳(メタデータ) (2020-03-12T15:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。