論文の概要: OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable
Virtual Try-on
- arxiv url: http://arxiv.org/abs/2403.01779v2
- Date: Thu, 7 Mar 2024 06:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:36:56.398309
- Title: OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable
Virtual Try-on
- Title(参考訳): ootdiffusion: 制御可能な仮想トライオンのための潜在拡散型核融合装置
- Authors: Yuhao Xu, Tao Gu, Weifeng Chen, and Chengcai Chen
- Abstract要約: OOTDiffusionは、リアルで制御可能なイメージベースの仮想トライオンのための新しいネットワークアーキテクチャである。
我々は、事前訓練された潜伏拡散モデルのパワーを活用し、UNetを設計して、衣服の詳細特徴を学習する。
VITON-HDおよびDress Codeデータセットに関する実験により、OOTDiffusionが効率よく高品質な試行結果を生成することを示した。
- 参考スコア(独自算出の注目度): 7.46772222515689
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present OOTDiffusion, a novel network architecture for realistic and
controllable image-based virtual try-on (VTON). We leverage the power of
pretrained latent diffusion models, designing an outfitting UNet to learn the
garment detail features. Without a redundant warping process, the garment
features are precisely aligned with the target human body via the proposed
outfitting fusion in the self-attention layers of the denoising UNet. In order
to further enhance the controllability, we introduce outfitting dropout to the
training process, which enables us to adjust the strength of the garment
features through classifier-free guidance. Our comprehensive experiments on the
VITON-HD and Dress Code datasets demonstrate that OOTDiffusion efficiently
generates high-quality try-on results for arbitrary human and garment images,
which outperforms other VTON methods in both realism and controllability,
indicating an impressive breakthrough in virtual try-on. Our source code is
available at https://github.com/levihsu/OOTDiffusion.
- Abstract(参考訳): 本稿では,現実的で制御可能な仮想トライオン(VTON)のための新しいネットワークアーキテクチャOOTDiffusionを提案する。
我々は,事前学習された潜在拡散モデルのパワーを活用し,衣料品の細部を学習するためのunetをデザインする。
冗長な反り処理がなければ、被着物の特徴は、消音unetの自己着脱層において提案された着脱融合により、ターゲットの人体と正確に整合する。
制御性をさらに向上するため,トレーニングプロセスに着脱機能を導入し,分類者なし指導による衣服特徴の強さの調整を可能にした。
VITON-HDとDress Codeのデータセットに関する包括的な実験は、OOTDiffusionが任意の人や衣服の画像に対して効率よく高品質な試行結果を生成することを示した。
ソースコードはhttps://github.com/levihsu/ootdiffusionから入手できます。
関連論文リスト
- DH-VTON: Deep Text-Driven Virtual Try-On via Hybrid Attention Learning [6.501730122478447]
DH-VTONは、特別なハイブリッドアテンション学習戦略と深層着衣意味保存モジュールを備えた、深層テキスト駆動型仮想試行モデルである。
衣服の深い意味を抽出するために,我々はまずInternViT-6Bを細粒度特徴学習機として導入する。
カスタマイズドレッシング能力を高めるため,Garment-Feature ControlNet Plus (略してGFC+)モジュールを導入する。
論文 参考訳(メタデータ) (2024-10-16T12:27:10Z) - Improving Virtual Try-On with Garment-focused Diffusion Models [91.95830983115474]
拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。
私たちは新しい拡散モデル、すなわちGarDiffを作り、衣服中心の拡散プロセスを引き起こします。
VITON-HDおよびDressCodeデータセットの実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
論文 参考訳(メタデータ) (2024-09-12T17:55:11Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - FLDM-VTON: Faithful Latent Diffusion Model for Virtual Try-on [21.34959824429241]
FLDM-VTONは、VTONのためのFhithful Latent Diffusion Modelである。
着物は出発点と現地の条件の両方に組み込まれ、忠実な着物のモデルを提供する。
写真のリアルな試着画像を、忠実な衣服のディテールで生成することができる。
論文 参考訳(メタデータ) (2024-04-22T13:21:09Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - PFDM: Parser-Free Virtual Try-on via Diffusion Model [28.202996582963184]
拡散モデル(PFDM)に基づく自由仮想試行法を提案する。
2つの画像が与えられた場合、PFDMは、他の情報なしで暗黙的にワープすることで、標的人物の衣服をシームレスに「着る」ことができる。
実験により,提案したPFDMは複雑な画像の処理に成功し,最先端の最先端モデルと高忠実度モデルの両方より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-05T14:32:57Z) - WarpDiffusion: Efficient Diffusion Model for High-Fidelity Virtual
Try-on [81.15988741258683]
画像ベースの仮想トライオン(VITON)は、ホップ内の衣服イメージを対象人物に転送することを目的としている。
現在の方法では、衣服と肌の境界付近の合成品質や、ねじれた衣服のしわや影のような現実的な効果を見落としていることが多い。
本稿では,新しい情報的・局所的な特徴的注意機構を通じてワーピングと拡散に基づくパラダイムを橋渡しするワープ拡散を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:34:32Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Taming the Power of Diffusion Models for High-Quality Virtual Try-On
with Appearance Flow [24.187109053871833]
仮想試着は、人間と衣服の両方の詳細を保存しながら、ある画像から別の画像へ衣服を転送することを目的とした、重要な画像合成タスクである。
本稿では,拡散モデルの生成を効果的に導くために,ワープモジュールを利用する例に基づく塗装手法を提案する。
我々のアプローチ、すなわちDCI-VTON(Diffusion-based Conditional Inpainting for Virtual Try-ON)は、拡散モデルのパワーを効果的に活用する。
論文 参考訳(メタデータ) (2023-08-11T12:23:09Z) - Towards Scalable Unpaired Virtual Try-On via Patch-Routed
Spatially-Adaptive GAN [66.3650689395967]
本稿では,現実世界の仮想試行を支援するテクスチャ保存型終末ネットワークであるPAtch-routed SpaTially-Adaptive GAN (PASTA-GAN)を提案する。
PASTA-GANは、各衣服のスタイルと空間情報をアンタングルするために、革新的なパッチを外したアンタングルモジュールで構成されている。
論文 参考訳(メタデータ) (2021-11-20T08:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。