論文の概要: StableVITON: Learning Semantic Correspondence with Latent Diffusion
Model for Virtual Try-On
- arxiv url: http://arxiv.org/abs/2312.01725v1
- Date: Mon, 4 Dec 2023 08:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:50:31.955331
- Title: StableVITON: Learning Semantic Correspondence with Latent Diffusion
Model for Virtual Try-On
- Title(参考訳): StableVITON:仮想試行のための潜在拡散モデルを用いた意味対応学習
- Authors: Jeongho Kim, Gyojung Gu, Minho Park, Sunghyun Park, and Jaegul Choo
- Abstract要約: 衣服画像と人物画像が与えられた場合、画像ベースの仮想試行は、衣服画像の特徴を自然に正確に反映した、カスタマイズされた画像を生成することを目的としている。
本研究では,事前学習した拡散モデルの適用性を拡張し,仮想試行作業に独立して利用できるようにすることを目的とする。
提案するゼロ・クロスアテンションブロックは, 意味的対応を学習することで衣服の細部を保存できるだけでなく, ワープ過程における事前学習モデル固有の知識を利用して高忠実度画像を生成する。
- 参考スコア(独自算出の注目度): 35.227896906556026
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Given a clothing image and a person image, an image-based virtual try-on aims
to generate a customized image that appears natural and accurately reflects the
characteristics of the clothing image. In this work, we aim to expand the
applicability of the pre-trained diffusion model so that it can be utilized
independently for the virtual try-on task.The main challenge is to preserve the
clothing details while effectively utilizing the robust generative capability
of the pre-trained model. In order to tackle these issues, we propose
StableVITON, learning the semantic correspondence between the clothing and the
human body within the latent space of the pre-trained diffusion model in an
end-to-end manner. Our proposed zero cross-attention blocks not only preserve
the clothing details by learning the semantic correspondence but also generate
high-fidelity images by utilizing the inherent knowledge of the pre-trained
model in the warping process. Through our proposed novel attention total
variation loss and applying augmentation, we achieve the sharp attention map,
resulting in a more precise representation of clothing details. StableVITON
outperforms the baselines in qualitative and quantitative evaluation, showing
promising quality in arbitrary person images. Our code is available at
https://github.com/rlawjdghek/StableVITON.
- Abstract(参考訳): 衣服画像と人物画像が与えられた場合、画像ベースの仮想試着は、衣服画像の特徴を自然に正確に反映したカスタマイズされた画像を生成することを目的としている。
本研究は, トレーニング済み拡散モデルの適用性を拡張し, 仮想試行作業に独立して利用できるようにすることを目標とし, トレーニング済みモデルの堅牢な生成能力を有効活用しつつ, 衣服の細部を保存することを目的とする。
これらの課題に対処するために,我々は,事前学習した拡散モデルの潜在空間内で,衣服と人体間の意味的対応をエンドツーエンドに学習するStableVITONを提案する。
提案するゼロ・クロスアテンションブロックは, 意味的対応を学習することで衣服の細部を保存できるだけでなく, ワープ過程における事前学習モデル固有の知識を利用して高忠実度画像を生成する。
提案する新しい注意総変動損失と拡張の適用により、鋭い注意マップを実現し、衣服の詳細をより正確に表現する。
stablevitonは質的かつ定量的な評価においてベースラインを上回り、任意の人物画像に有望な品質を示す。
私たちのコードはhttps://github.com/rlawjdghek/StableVITON.comで利用可能です。
関連論文リスト
- Better Fit: Accommodate Variations in Clothing Types for Virtual Try-on [25.550019373321653]
画像ベースの仮想試着は、ターゲットとなる服を着替えたモデル画像に転送することを目的としている。
トレーニングマスクを動的に調整する適応型マスクトレーニングパラダイムを提案する。
未ペアの試行検証のために、総合的なクロストライオンベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-13T12:07:14Z) - Improving Diffusion Models for Virtual Try-on [57.893391816847405]
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
IDM-VTONと呼ばれる本手法は,2つの異なるモジュールを用いて衣料画像の意味を符号化する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - A Two-stage Personalized Virtual Try-on Framework with Shape Control and
Texture Guidance [7.302929117437442]
本稿では,2段階(形状制御とテクスチャガイダンス)を用いて衣服属性を分離する,新しい仮想試行モデル(PE-VITON)を提案する。
提案モデルでは, 衣服の折り畳みの弱さ, 複雑な姿勢下での創出効果の低下, 衣服のぼやけた縁, 従来の試行法では不明瞭なテクスチャスタイルを効果的に解決することができる。
論文 参考訳(メタデータ) (2023-12-24T13:32:55Z) - Taming the Power of Diffusion Models for High-Quality Virtual Try-On
with Appearance Flow [24.187109053871833]
仮想試着は、人間と衣服の両方の詳細を保存しながら、ある画像から別の画像へ衣服を転送することを目的とした、重要な画像合成タスクである。
本稿では,拡散モデルの生成を効果的に導くために,ワープモジュールを利用する例に基づく塗装手法を提案する。
我々のアプローチ、すなわちDCI-VTON(Diffusion-based Conditional Inpainting for Virtual Try-ON)は、拡散モデルのパワーを効果的に活用する。
論文 参考訳(メタデータ) (2023-08-11T12:23:09Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Shape Controllable Virtual Try-on for Underwear Models [0.0]
そこで我々は,下着モデル用の衣服を着る形状制御可能な仮想トライオンネットワーク(SC-VTON)を提案する。
SC-VTONは、モデルと衣服の情報を統合し、歪んだ衣服画像を生成する。
本手法は, 詳細なテクスチャで高分解能な結果が得られる。
論文 参考訳(メタデータ) (2021-07-28T04:01:01Z) - Progressive and Aligned Pose Attention Transfer for Person Image
Generation [59.87492938953545]
本稿では,ある人物のポーズを対象のポーズに移す,新たなポーズ移動のための生成的広告ネットワークを提案する。
Pose-Attentional Transfer Block (PATB) と Aligned Pose-Attentional Transfer Bloc (APATB) の2種類のブロックを使用します。
Market-1501およびDeepFashionデータセットにおけるモデルの有効性を定量的および定性測定を用いて検証する。
論文 参考訳(メタデータ) (2021-03-22T07:24:57Z) - PoNA: Pose-guided Non-local Attention for Human Pose Transfer [105.14398322129024]
本稿では, 簡易ブロックを用いたGAN(Generative Adversarial Network)を用いた新しいポーズ転送手法を提案する。
我々のモデルはより鮮明でよりリアルな画像を生成するが、パラメータは少なく、速度も速い。
論文 参考訳(メタデータ) (2020-12-13T12:38:29Z) - Towards Photo-Realistic Virtual Try-On by Adaptively
Generating$\leftrightarrow$Preserving Image Content [85.24260811659094]
本稿では,適応コンテンツ生成・保存ネットワーク(ACGPN)という新しいビジュアル・トライオン・ネットワークを提案する。
ACGPNはまず、試行錯誤後に変更される参照画像のセマンティックレイアウトを予測する。
第二に、服のワープモジュールは、生成されたセマンティックレイアウトに従って衣服の画像をワープする。
第3に、コンテンツ融合のための塗装モジュールは、すべての情報(例えば、参照画像、セマンティックレイアウト、歪んだ衣服)を統合して、人間の身体の各意味部分を適応的に生成する。
論文 参考訳(メタデータ) (2020-03-12T15:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。