Fugu-MT 論文翻訳(概要): StableVITON: Learning Semantic Correspondence with Latent Diffusion Model for Virtual Try-On

論文の概要: StableVITON: Learning Semantic Correspondence with Latent Diffusion Model for Virtual Try-On

arxiv url: http://arxiv.org/abs/2312.01725v1
Date: Mon, 4 Dec 2023 08:27:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 15:50:31.955331
Title: StableVITON: Learning Semantic Correspondence with Latent Diffusion Model for Virtual Try-On
Title（参考訳）: StableVITON:仮想試行のための潜在拡散モデルを用いた意味対応学習
Authors: Jeongho Kim, Gyojung Gu, Minho Park, Sunghyun Park, and Jaegul Choo
Abstract要約: 衣服画像と人物画像が与えられた場合、画像ベースの仮想試行は、衣服画像の特徴を自然に正確に反映した、カスタマイズされた画像を生成することを目的としている。本研究では,事前学習した拡散モデルの適用性を拡張し,仮想試行作業に独立して利用できるようにすることを目的とする。提案するゼロ・クロスアテンションブロックは, 意味的対応を学習することで衣服の細部を保存できるだけでなく, ワープ過程における事前学習モデル固有の知識を利用して高忠実度画像を生成する。
参考スコア（独自算出の注目度）: 35.227896906556026
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Given a clothing image and a person image, an image-based virtual try-on aims to generate a customized image that appears natural and accurately reflects the characteristics of the clothing image. In this work, we aim to expand the applicability of the pre-trained diffusion model so that it can be utilized independently for the virtual try-on task.The main challenge is to preserve the clothing details while effectively utilizing the robust generative capability of the pre-trained model. In order to tackle these issues, we propose StableVITON, learning the semantic correspondence between the clothing and the human body within the latent space of the pre-trained diffusion model in an end-to-end manner. Our proposed zero cross-attention blocks not only preserve the clothing details by learning the semantic correspondence but also generate high-fidelity images by utilizing the inherent knowledge of the pre-trained model in the warping process. Through our proposed novel attention total variation loss and applying augmentation, we achieve the sharp attention map, resulting in a more precise representation of clothing details. StableVITON outperforms the baselines in qualitative and quantitative evaluation, showing promising quality in arbitrary person images. Our code is available at https://github.com/rlawjdghek/StableVITON.
Abstract（参考訳）: 衣服画像と人物画像が与えられた場合、画像ベースの仮想試着は、衣服画像の特徴を自然に正確に反映したカスタマイズされた画像を生成することを目的としている。本研究は, トレーニング済み拡散モデルの適用性を拡張し, 仮想試行作業に独立して利用できるようにすることを目標とし, トレーニング済みモデルの堅牢な生成能力を有効活用しつつ, 衣服の細部を保存することを目的とする。これらの課題に対処するために,我々は,事前学習した拡散モデルの潜在空間内で,衣服と人体間の意味的対応をエンドツーエンドに学習するStableVITONを提案する。提案するゼロ・クロスアテンションブロックは, 意味的対応を学習することで衣服の細部を保存できるだけでなく, ワープ過程における事前学習モデル固有の知識を利用して高忠実度画像を生成する。提案する新しい注意総変動損失と拡張の適用により、鋭い注意マップを実現し、衣服の詳細をより正確に表現する。 stablevitonは質的かつ定量的な評価においてベースラインを上回り、任意の人物画像に有望な品質を示す。私たちのコードはhttps://github.com/rlawjdghek/StableVITON.comで利用可能です。

関連論文リスト

VITON-DRR: Details Retention Virtual Try-on via Non-rigid Registration [5.465426769865638]
本稿では,多種多様なポーズに対する高精度な非剛性登録(VITON-DRR)による仮想試行法を提案する。具体的には,2つのピラミド構造を持つ特徴抽出器を用いて,人間のセマンティックセグメンテーションを再構築する。そして、新規な変形モジュールを、布のキーポイントを抽出し、正確な非剛性登録アルゴリズムによってワープするように設計する。
論文参考訳（メタデータ） (2025-05-29T13:38:21Z)
Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On [89.9123806553489]
拡散モデルは仮想試行(VTON)タスクで成功している。この問題は、拡散モデルの本質性により、与えられた衣服の形状や細部を保存することは依然として困難である。本稿では,視力の拡散前処理として視覚的対応を明示的に活用することを提案する。
論文参考訳（メタデータ） (2025-05-22T17:52:13Z)
Limb-Aware Virtual Try-On Network with Progressive Clothing Warping [64.84181064722084]
画像ベースの仮想試着は、ショップ内服の画像を人物画像に転送することを目的としている。既存のほとんどの方法では、服の反りを直接行うために単一のグローバルな変形が採用されている。 PL-VTONと命名されたLmb-Aware Virtual Try-on Networkを提案する。
論文参考訳（メタデータ） (2025-03-18T09:52:41Z)
Learning Flow Fields in Attention for Controllable Person Image Generation [59.10843756343987]
制御可能な人物画像生成は、参照画像に条件付けされた人物画像を生成することを目的としている。そこで本研究では,対象クエリに対して,適切な参照キーへの参照を明示的にガイドする学習フロー場(Leffa)を提案する。 Leffaは外観(仮想試行)とポーズ(目的移動)の制御における最先端のパフォーマンスを実現し、細かなディテール歪みを著しく低減する。
論文参考訳（メタデータ） (2024-12-11T15:51:14Z)
Improving Virtual Try-On with Garment-focused Diffusion Models [91.95830983115474]
拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。私たちは新しい拡散モデル、すなわちGarDiffを作り、衣服中心の拡散プロセスを引き起こします。 VITON-HDおよびDressCodeデータセットの実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
論文参考訳（メタデータ） (2024-09-12T17:55:11Z)
IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。 IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文参考訳（メタデータ） (2024-07-17T16:26:30Z)
Masked Extended Attention for Zero-Shot Virtual Try-On In The Wild [17.025262797698364]
仮想トライオン(Virtual Try-On)は、人物や衣服の特徴を保ちながら、画像中の衣服を別のものに置き換えることを目的としている。現在の文献では、タスクの教師付きアプローチを採用し、一般化を損なうとともに、重い計算を課している。本稿では,衣服の着衣を参考に塗布するためのゼロショットトレーニングフリーな新しい手法を提案する。
論文参考訳（メタデータ） (2024-06-21T17:45:37Z)
GraVITON: Graph based garment warping with attention guided inversion for Virtual-tryon [5.790630195329777]
衣服のフローにおけるコンテキストの価値を強調する新しいグラフベースのワープ手法を提案する。提案手法は,VITON-HDとDresscodeのデータセットで検証され,衣服のワープ,テクスチャ保存,および全体リアリズムの大幅な改善を示す。
論文参考訳（メタデータ） (2024-06-04T10:29:18Z)
Texture-Preserving Diffusion Models for High-Fidelity Virtual Try-On [29.217423805933727]
拡散モデルに基づくアプローチは,画像合成タスクに優れており,近年普及している。本稿では,仮想試行のためのテクスチャ保存拡散(TPD)モデルを提案する。第2に,被写体と参照衣料画像に基づいて,正確な塗布マスクを推定する拡散に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-01T12:43:22Z)
Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文参考訳（メタデータ） (2024-03-08T08:12:18Z)
Taming the Power of Diffusion Models for High-Quality Virtual Try-On with Appearance Flow [24.187109053871833]
仮想試着は、人間と衣服の両方の詳細を保存しながら、ある画像から別の画像へ衣服を転送することを目的とした、重要な画像合成タスクである。本稿では,拡散モデルの生成を効果的に導くために,ワープモジュールを利用する例に基づく塗装手法を提案する。我々のアプローチ、すなわちDCI-VTON(Diffusion-based Conditional Inpainting for Virtual Try-ON)は、拡散モデルのパワーを効果的に活用する。
論文参考訳（メタデータ） (2023-08-11T12:23:09Z)
Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。 2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文参考訳（メタデータ） (2022-11-22T18:59:50Z)
PoNA: Pose-guided Non-local Attention for Human Pose Transfer [105.14398322129024]
本稿では, 簡易ブロックを用いたGAN(Generative Adversarial Network)を用いた新しいポーズ転送手法を提案する。我々のモデルはより鮮明でよりリアルな画像を生成するが、パラメータは少なく、速度も速い。
論文参考訳（メタデータ） (2020-12-13T12:38:29Z)
Towards Photo-Realistic Virtual Try-On by Adaptively Generating$\leftrightarrow$Preserving Image Content [85.24260811659094]
本稿では,適応コンテンツ生成・保存ネットワーク(ACGPN)という新しいビジュアル・トライオン・ネットワークを提案する。 ACGPNはまず、試行錯誤後に変更される参照画像のセマンティックレイアウトを予測する。第二に、服のワープモジュールは、生成されたセマンティックレイアウトに従って衣服の画像をワープする。第3に、コンテンツ融合のための塗装モジュールは、すべての情報(例えば、参照画像、セマンティックレイアウト、歪んだ衣服)を統合して、人間の身体の各意味部分を適応的に生成する。
論文参考訳（メタデータ） (2020-03-12T15:55:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。