論文の概要: Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On
- arxiv url: http://arxiv.org/abs/2505.16977v1
- Date: Thu, 22 May 2025 17:52:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.52326
- Title: Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On
- Title(参考訳): 仮想試行錯誤のための拡散モデルへの視覚対応の導入
- Authors: Siqi Wan, Jingwen Chen, Yingwei Pan, Ting Yao, Tao Mei,
- Abstract要約: 拡散モデルは仮想試行(VTON)タスクで成功している。
この問題は、拡散モデルの本質性により、与えられた衣服の形状や細部を保存することは依然として困難である。
本稿では,視力の拡散前処理として視覚的対応を明示的に活用することを提案する。
- 参考スコア(独自算出の注目度): 89.9123806553489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have shown preliminary success in virtual try-on (VTON) task. The typical dual-branch architecture comprises two UNets for implicit garment deformation and synthesized image generation respectively, and has emerged as the recipe for VTON task. Nevertheless, the problem remains challenging to preserve the shape and every detail of the given garment due to the intrinsic stochasticity of diffusion model. To alleviate this issue, we novelly propose to explicitly capitalize on visual correspondence as the prior to tame diffusion process instead of simply feeding the whole garment into UNet as the appearance reference. Specifically, we interpret the fine-grained appearance and texture details as a set of structured semantic points, and match the semantic points rooted in garment to the ones over target person through local flow warping. Such 2D points are then augmented into 3D-aware cues with depth/normal map of target person. The correspondence mimics the way of putting clothing on human body and the 3D-aware cues act as semantic point matching to supervise diffusion model training. A point-focused diffusion loss is further devised to fully take the advantage of semantic point matching. Extensive experiments demonstrate strong garment detail preservation of our approach, evidenced by state-of-the-art VTON performances on both VITON-HD and DressCode datasets. Code is publicly available at: https://github.com/HiDream-ai/SPM-Diff.
- Abstract(参考訳): 拡散モデルは仮想試行(VTON)タスクにおいて予備的な成功を示している。
典型的なデュアルブランチアーキテクチャは、暗黙の変形と合成画像生成のための2つのユニセットから構成され、VTONタスクのレシピとして登場した。
それでも、拡散モデルの内在的確率性のため、与えられた衣服の形状や細部を保存することは依然として困難である。
この問題を緩和するために,我々は,目視基準として衣料全体をUNetに供給する代わりに,目視対応をテーム拡散前のプロセスとして明示的に活用することを提案する。
具体的には, きめ細かな外観やテクスチャの細部を構造化された意味点の集合として解釈し, 衣服に根ざした意味点と, 局所的な流れのワープによって対象人物上の意味点とを一致させる。
このような2Dポイントは、対象者の深度/正規マップを持つ3D対応キューに拡張される。
この対応は、人間の体に衣服を装着する方法を模倣し、3D認識キューは、拡散モデルトレーニングを監督するために意味点マッチングとして機能する。
点中心の拡散損失はさらに、意味的点マッチングの利点を完全に活用するために考案される。
VITON-HDとDressCodeの両方のデータセット上で、最先端のVTONパフォーマンスによって実証された、当社のアプローチの強い衣服的詳細保存を広範囲にわたる実験により実証した。
コードはhttps://github.com/HiDream-ai/SPM-Diff.comで公開されている。
関連論文リスト
- Improving Virtual Try-On with Garment-focused Diffusion Models [91.95830983115474]
拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。
私たちは新しい拡散モデル、すなわちGarDiffを作り、衣服中心の拡散プロセスを引き起こします。
VITON-HDおよびDressCodeデータセットの実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
論文 参考訳(メタデータ) (2024-09-12T17:55:11Z) - GraVITON: Graph based garment warping with attention guided inversion for Virtual-tryon [5.790630195329777]
衣服のフローにおけるコンテキストの価値を強調する新しいグラフベースのワープ手法を提案する。
提案手法は,VITON-HDとDresscodeのデータセットで検証され,衣服のワープ,テクスチャ保存,および全体リアリズムの大幅な改善を示す。
論文 参考訳(メタデータ) (2024-06-04T10:29:18Z) - FLDM-VTON: Faithful Latent Diffusion Model for Virtual Try-on [21.34959824429241]
FLDM-VTONは、VTONのためのFhithful Latent Diffusion Modelである。
着物は出発点と現地の条件の両方に組み込まれ、忠実な着物のモデルを提供する。
写真のリアルな試着画像を、忠実な衣服のディテールで生成することができる。
論文 参考訳(メタデータ) (2024-04-22T13:21:09Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。