論文の概要: DS-VTON: High-Quality Virtual Try-on via Disentangled Dual-Scale Generation
- arxiv url: http://arxiv.org/abs/2506.00908v1
- Date: Sun, 01 Jun 2025 08:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.781431
- Title: DS-VTON: High-Quality Virtual Try-on via Disentangled Dual-Scale Generation
- Title(参考訳): DS-VTON:分散デュアルスケール生成による高品質バーチャルトライオン
- Authors: Xianbing Sun, Yan Hong, Jiahui Zhan, Jun Lan, Huijia Zhu, Weiqiang Wang, Liqing Zhang, Jianfu Zhang,
- Abstract要約: DS-VTONは、より効果的なモデリングのために目的を絞ったデュアルスケール仮想試行フレームワークである。
提案手法では, パーシングマップやセグメンテーションマスクへの依存を排除し, マスクフリーな生成パラダイムを採用する。
- 参考スコア(独自算出の注目度): 38.499761393356124
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite recent progress, most existing virtual try-on methods still struggle to simultaneously address two core challenges: accurately aligning the garment image with the target human body, and preserving fine-grained garment textures and patterns. In this paper, we propose DS-VTON, a dual-scale virtual try-on framework that explicitly disentangles these objectives for more effective modeling. DS-VTON consists of two stages: the first stage generates a low-resolution try-on result to capture the semantic correspondence between garment and body, where reduced detail facilitates robust structural alignment. The second stage introduces a residual-guided diffusion process that reconstructs high-resolution outputs by refining the residual between the two scales, focusing on texture fidelity. In addition, our method adopts a fully mask-free generation paradigm, eliminating reliance on human parsing maps or segmentation masks. By leveraging the semantic priors embedded in pretrained diffusion models, this design more effectively preserves the person's appearance and geometric consistency. Extensive experiments demonstrate that DS-VTON achieves state-of-the-art performance in both structural alignment and texture preservation across multiple standard virtual try-on benchmarks.
- Abstract(参考訳): 最近の進歩にもかかわらず、既存の仮想試行法のほとんどは、服のイメージを標的の人体と正確に整合させ、きめ細かい布のテクスチャやパターンを保存するという、2つの主要な課題に同時に対処するのに苦慮している。
本稿では,DS-VTONを提案する。DS-VTONは,より効果的なモデリングのために,これらの目的を明示的に切り離す2次元仮想試行フレームワークである。
DS-VTONは2つの段階から構成される: 第一段階は、衣服と身体の間の意味的対応を捉えるために、低分解能な試着結果を生成する。
第2段階では、テクスチャの忠実度に焦点をあてて、2つのスケール間の残差を精製することで高分解能出力を再構築する残差誘導拡散プロセスを導入する。
さらに,本手法はマスクのない生成パラダイムを採用し,人間のパーシングマップやセグメンテーションマスクへの依存を解消する。
事前訓練された拡散モデルに埋め込まれたセマンティックな事前情報を活用することで、この設計は人物の外観と幾何的整合性をより効果的に保存する。
DS-VTONは、複数の標準仮想試行ベンチマークにおいて、構造アライメントとテクスチャ保存の両方において、最先端の性能を達成することを実証した。
関連論文リスト
- HF-VTON: High-Fidelity Virtual Try-On via Consistent Geometric and Semantic Alignment [11.00877062567135]
HF-VTONは,多種多様なポーズにおける高忠実度仮想トライオン性能を保証する新しいフレームワークである。
HF-VTONは3つの主要なモジュールで構成されている: 外観保存型ワープアライメントモジュール、セマンティック表現モジュール、およびマルチモーダル事前誘導型外観生成モジュール。
実験の結果,HF-VTONはVITON-HDとSAMP-VTONSの両方で最先端の手法より優れていた。
論文 参考訳(メタデータ) (2025-05-26T07:55:49Z) - UniViTAR: Unified Vision Transformer with Native Resolution [37.63387029787732]
UniViTARは、視覚の統一性とネイティブ解像度のシナリオに適した、均質な視覚基盤モデルのファミリーである。
2つのコアメカニズムを戦略的に組み合わせたプログレッシブトレーニングパラダイムが導入された。
並行して、ハイブリッドトレーニングフレームワークは、凍結教師モデルからの特徴蒸留に伴うシグモイドに基づくコントラスト損失をさらにシナジする。
論文 参考訳(メタデータ) (2025-04-02T14:59:39Z) - Aligning Foundation Model Priors and Diffusion-Based Hand Interactions for Occlusion-Resistant Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置や閉塞が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本研究では,基礎モデルに基づく2次元先行モデルと拡散に基づく相互作用改善を組み込むことにより,手振りとインタラクションを正確に整合させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - 1-2-1: Renaissance of Single-Network Paradigm for Virtual Try-On [17.226542332700607]
本稿では,既存の手法の限界を克服する新しいシングルネットワークVTON法を提案する。
MNVTONと呼ばれる本手法では,テキスト,画像,ビデオの入力を別々に処理するモダリティ固有の正規化戦略を導入する。
その結果,シングルネットワーク・パラダイムはデュアルネットワーク・アプローチのパフォーマンスに匹敵する可能性が示唆された。
論文 参考訳(メタデータ) (2025-01-09T16:49:04Z) - D$^4$-VTON: Dynamic Semantics Disentangling for Differential Diffusion based Virtual Try-On [32.73798955587999]
D$4$-VTONは画像ベースの仮想試行のための革新的なソリューションである。
我々は,服飾の前後における意味的不整合など,過去の研究の課題に対処する。
論文 参考訳(メタデータ) (2024-07-21T10:40:53Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。