論文の概要: OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable
Virtual Try-on
- arxiv url: http://arxiv.org/abs/2403.01779v1
- Date: Mon, 4 Mar 2024 07:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:44:59.086096
- Title: OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable
Virtual Try-on
- Title(参考訳): ootdiffusion: 制御可能な仮想トライオンのための潜在拡散型核融合装置
- Authors: Yuhao Xu, Tao Gu, Weifeng Chen, and Chengcai Chen
- Abstract要約: 画像ベースの仮想試着(VTON)は、ホップの服装を身に着けたターゲット人間の画像を作成することを目的としている。
現実的で制御可能な仮想試行に対して,トライオン拡散(OOTDiffusion)によるアウトフィッティングを提案する。
VITON-HDおよびDress Codeデータセットに関する実験により,OOTDiffusionが高画質な画像を生成することを示す。
- 参考スコア(独自算出の注目度): 7.46772222515689
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image-based virtual try-on (VTON), which aims to generate an outfitted image
of a target human wearing an in-shop garment, is a challenging image-synthesis
task calling for not only high fidelity of the outfitted human but also full
preservation of garment details. To tackle this issue, we propose Outfitting
over Try-on Diffusion (OOTDiffusion), leveraging the power of pretrained latent
diffusion models and designing a novel network architecture for realistic and
controllable virtual try-on. Without an explicit warping process, we propose an
outfitting UNet to learn the garment detail features, and merge them with the
target human body via our proposed outfitting fusion in the denoising process
of diffusion models. In order to further enhance the controllability of our
outfitting UNet, we introduce outfitting dropout to the training process, which
enables us to adjust the strength of garment features through classifier-free
guidance. Our comprehensive experiments on the VITON-HD and Dress Code datasets
demonstrate that OOTDiffusion efficiently generates high-quality outfitted
images for arbitrary human and garment images, which outperforms other VTON
methods in both fidelity and controllability, indicating an impressive
breakthrough in virtual try-on. Our source code is available at
https://github.com/levihsu/OOTDiffusion.
- Abstract(参考訳): 画像ベース仮想トライオン(vton, image-based virtual try-on, 画像ベース仮想トライオン)は、被写体の高忠実性だけでなく、被写体の詳細の完全保存も要求する画像合成課題である。
そこで本研究では,事前学習した潜伏拡散モデルのパワーを活用し,現実的で制御可能な仮想試行のための新しいネットワークアーキテクチャを設計する,トライオン拡散(OOTDiffusion)によるアウトフィッティングを提案する。
明示的な反りのプロセスがなければ, 衣服の細部構造を学習し, 拡散モデルのデノージング過程において, 提案するアロイング融合により, 対象の人体と融合するアロイングunetを提案する。
本研究は,着付け用unetの制御性をさらに高めるため,トレーニングプロセスに着付けドロップアウトを導入することで,分類器を使わずに衣服の特徴の強さを調整できる手法を提案する。
VITON-HDとDress Codeのデータセットに関する包括的な実験により、OOTDiffusionは、任意の人や衣服の画像に対して、高品質な画像を効率よく生成することを示した。
ソースコードはhttps://github.com/levihsu/ootdiffusionから入手できます。
関連論文リスト
- ODPG: Outfitting Diffusion with Pose Guided Condition [2.5602836891933074]
VTON技術は、物理的に試すことなく、服がどのように見えるかを視覚化する。
GAN(Geneversarative Adrial Networks)と拡散モデル(Diffusion model)を用いた従来のVTON手法は、高いリアリズムの実現と動的なポーズの処理において課題に直面している。
本稿では,複数の条件入力を持つ潜伏拡散モデルを利用した新しい手法であるFOPS(Outfitting Diffusion with Pose Guided Condition)を提案する。
論文 参考訳(メタデータ) (2025-01-12T10:30:27Z) - DiffusionTrend: A Minimalist Approach to Virtual Fashion Try-On [103.89972383310715]
DiffusionTrendは、事前情報に富んだ潜伏情報を利用して、衣服の詳細のニュアンスをキャプチャする。
視覚的に魅力的な試行体験を提供し、トレーニング不要の拡散モデルの可能性を強調します。
論文 参考訳(メタデータ) (2024-12-19T02:24:35Z) - TryOffAnyone: Tiled Cloth Generation from a Dressed Person [1.4732811715354452]
高忠実なタイル付き衣料品画像は、パーソナライズされたレコメンデーション、服装構成、バーチャルトライオンシステムに不可欠である。
本研究では, 微調整型安定拡散モデルを用いた新しい手法を提案する。
本手法は,服飾用マスクを統合し,対象の衣服を効果的に分離・処理する,一段ネットワーク設計の合理化を特徴とする。
論文 参考訳(メタデータ) (2024-12-11T17:41:53Z) - DH-VTON: Deep Text-Driven Virtual Try-On via Hybrid Attention Learning [6.501730122478447]
DH-VTONは、特別なハイブリッドアテンション学習戦略と深層着衣意味保存モジュールを備えた、深層テキスト駆動型仮想試行モデルである。
衣服の深い意味を抽出するために,我々はまずInternViT-6Bを細粒度特徴学習機として導入する。
カスタマイズドレッシング能力を高めるため,Garment-Feature ControlNet Plus (略してGFC+)モジュールを導入する。
論文 参考訳(メタデータ) (2024-10-16T12:27:10Z) - Improving Virtual Try-On with Garment-focused Diffusion Models [91.95830983115474]
拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。
私たちは新しい拡散モデル、すなわちGarDiffを作り、衣服中心の拡散プロセスを引き起こします。
VITON-HDおよびDressCodeデータセットの実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
論文 参考訳(メタデータ) (2024-09-12T17:55:11Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - FLDM-VTON: Faithful Latent Diffusion Model for Virtual Try-on [21.34959824429241]
FLDM-VTONは、VTONのためのFhithful Latent Diffusion Modelである。
着物は出発点と現地の条件の両方に組み込まれ、忠実な着物のモデルを提供する。
写真のリアルな試着画像を、忠実な衣服のディテールで生成することができる。
論文 参考訳(メタデータ) (2024-04-22T13:21:09Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - WarpDiffusion: Efficient Diffusion Model for High-Fidelity Virtual
Try-on [81.15988741258683]
画像ベースの仮想トライオン(VITON)は、ホップ内の衣服イメージを対象人物に転送することを目的としている。
現在の方法では、衣服と肌の境界付近の合成品質や、ねじれた衣服のしわや影のような現実的な効果を見落としていることが多い。
本稿では,新しい情報的・局所的な特徴的注意機構を通じてワーピングと拡散に基づくパラダイムを橋渡しするワープ拡散を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:34:32Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。