論文の概要: Rethinking Garment Conditioning in Diffusion-based Virtual Try-On
- arxiv url: http://arxiv.org/abs/2511.18775v1
- Date: Mon, 24 Nov 2025 05:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.028785
- Title: Rethinking Garment Conditioning in Diffusion-based Virtual Try-On
- Title(参考訳): 拡散型バーチャルトライオンにおけるガーメントコンディショニングの再考
- Authors: Kihyun Na, Jinyoung Choi, Injung Kim,
- Abstract要約: 高速な単一UNetモデルであるRe-CatVTONを開発した。
提案されたRe-CatVTONは前機種に比べて性能が大幅に向上した。
その結果,FID,KID,LPIPSのスコアは改善し,SSIMはわずかに低下した。
- 参考スコア(独自算出の注目度): 7.386027762996787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual Try-On (VTON) is the task of synthesizing an image of a person wearing a target garment, conditioned on a person image and a garment image. While diffusion-based VTON models featuring a Dual UNet architecture demonstrate superior fidelity compared to single UNet models, they incur substantial computational and memory overhead due to their heavy structure. In this study, through visualization analysis and theoretical analysis, we derived three hypotheses regarding the learning of context features to condition the denoising process. Based on these hypotheses, we developed Re-CatVTON, an efficient single UNet model that achieves high performance. We further enhance the model by introducing a modified classifier-free guidance strategy tailored for VTON's spatial concatenation conditioning, and by directly injecting the ground-truth garment latent derived from the clean garment latent to prevent the accumulation of prediction error. The proposed Re-CatVTON significantly improves performance compared to its predecessor (CatVTON) and requires less computation and memory than the high-performance Dual UNet model, Leffa. Our results demonstrate improved FID, KID, and LPIPS scores, with only a marginal decrease in SSIM, establishing a new efficiency-performance trade-off for single UNet VTON models.
- Abstract(参考訳): 仮想トライオン(Virtual Try-On, VTON)とは、被写体画像と被写体画像に条件付けされた被写体画像の合成作業である。
Dual UNetアーキテクチャを特徴とする拡散ベースのVTONモデルは、単一のUNetモデルよりも優れた忠実さを示すが、重い構造のため、計算とメモリのオーバーヘッドがかなり大きい。
本研究では,可視化解析と理論的解析を通じて,文脈特徴の学習に関する3つの仮説を導出した。
これらの仮説に基づいて,高性能な単一UNetモデルであるRe-CatVTONを開発した。
さらに,VTONの空間共役条件に適合する改良型分類器フリー誘導戦略を導入し,クリーンな衣服遅延剤から得られる地味な衣服遅延剤を直接注入することにより,予測誤差の蓄積を防止することにより,モデルをさらに強化する。
提案したRe-CatVTONは、前機種(CatVTON)と比較して性能が大幅に向上し、高性能なデュアルUNetモデルであるLeffaよりも計算量やメモリが少なくなる。
提案手法は,FID,KID,LPIPSのスコアが向上し,SSIMがわずかに減少し,単一のUNet VTONモデルに対する新たな効率-性能トレードオフが確立された。
関連論文リスト
- SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [46.311223206965934]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - DS-VTON: An Enhanced Dual-Scale Coarse-to-Fine Framework for Virtual Try-On [33.05238077456732]
仮想試行のための拡張デュアルスケール粗大化フレームワークDS-VTONを提案する。
DS-VTONは2つの段階から構成される: 第一は、衣服と身体の間の意味的対応を捉えるために、低解像度の試行結果を生成する。
第2段階では、混合精製拡散過程は、スケール間の残留物を精製することによって高分解能出力を再構成する。
論文 参考訳(メタデータ) (2025-06-01T08:52:57Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Stable Consistency Tuning: Understanding and Improving Consistency Models [40.2712218203989]
拡散モデルは、より優れた生成品質を達成するが、復調の反復的な性質により、生成速度が遅くなる。
新しいジェネレーティブファミリーである一貫性モデルは、非常に高速なサンプリングで競争性能を達成する。
本稿では,拡散モデルの分解過程をマルコフ決定過程(MDP)としてモデル化し,時間差分学習(TD)による値推定としてフレーミング一貫性モデルのトレーニングを提案する。
論文 参考訳(メタデータ) (2024-10-24T17:55:52Z) - CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models [77.39903417768967]
CatVTONは仮想的な試着拡散モデルであり、任意のカテゴリーの衣服をターゲット個人に転送する。
CatVTONはVAEと単純化されたUNetのみで構成され、冗長な画像とテキストエンコーダを除去する。
実験により、CatVTONはベースライン法に比べて質的、定量的に優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-07-21T11:58:53Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Variational Diffusion Models [33.0719137062396]
本稿では,画像密度推定ベンチマークの最先端可能性を求める拡散モデルについて紹介する。
差分下界 (VLB) は, 拡散したデータの信号対雑音比において, 著しく短い表現に単純化されることを示す。
論文 参考訳(メタデータ) (2021-07-01T17:43:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。