論文の概要: DS-VTON: An Enhanced Dual-Scale Coarse-to-Fine Framework for Virtual Try-On
- arxiv url: http://arxiv.org/abs/2506.00908v2
- Date: Sun, 05 Oct 2025 06:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.048234
- Title: DS-VTON: An Enhanced Dual-Scale Coarse-to-Fine Framework for Virtual Try-On
- Title(参考訳): DS-VTON:仮想トライオンのための拡張デュアルスケール粗結合フレームワーク
- Authors: Xianbing Sun, Yan Hong, Jiahui Zhan, Jun Lan, Huijia Zhu, Weiqiang Wang, Liqing Zhang, Jianfu Zhang,
- Abstract要約: 仮想試行のための拡張デュアルスケール粗大化フレームワークDS-VTONを提案する。
DS-VTONは2つの段階から構成される: 第一は、衣服と身体の間の意味的対応を捉えるために、低解像度の試行結果を生成する。
第2段階では、混合精製拡散過程は、スケール間の残留物を精製することによって高分解能出力を再構成する。
- 参考スコア(独自算出の注目度): 33.05238077456732
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite recent progress, most existing virtual try-on methods still struggle to simultaneously address two core challenges: accurately aligning the garment image with the target human body, and preserving fine-grained garment textures and patterns. These two requirements map directly onto a coarse-to-fine generation paradigm, where the coarse stage handles structural alignment and the fine stage recovers rich garment details. Motivated by this observation, we propose DS-VTON, an enhanced dual-scale coarse-to-fine framework that tackles the try-on problem more effectively. DS-VTON consists of two stages: the first stage generates a low-resolution try-on result to capture the semantic correspondence between garment and body, where reduced detail facilitates robust structural alignment. In the second stage, a blend-refine diffusion process reconstructs high-resolution outputs by refining the residual between scales through noise-image blending, emphasizing texture fidelity and effectively correcting fine-detail errors from the low-resolution stage. In addition, our method adopts a fully mask-free generation strategy, eliminating reliance on human parsing maps or segmentation masks. Extensive experiments show that DS-VTON not only achieves state-of-the-art performance but consistently and significantly surpasses prior methods in both structural alignment and texture fidelity across multiple standard virtual try-on benchmarks.
- Abstract(参考訳): 最近の進歩にもかかわらず、既存の仮想試行法のほとんどは、服のイメージを標的の人体と正確に整合させ、きめ細かい布のテクスチャやパターンを保存するという、2つの主要な課題に同時に対処するのに苦慮している。
これら2つの要件は、粗いから細い生成パラダイムに直接マップされ、粗いステージが構造的なアライメントを処理し、細かいステージがリッチな衣服の詳細を回復する。
この結果からDS-VTONを提案する。DS-VTONはより効果的に試行錯誤に対処できる拡張された2次元粗大化フレームワークである。
DS-VTONは2つの段階から構成される: 第一段階は、衣服と身体の間の意味的対応を捉えるために、低分解能な試着結果を生成する。
第2段階では、混合微細拡散プロセスは、ノイズ・イメージ・ブレンディングによるスケール間の残差を精製し、テクスチャの忠実度を強調し、低分解能段階からの細部誤差を効果的に補正することにより、高分解能出力を再構成する。
さらに,本手法はマスクのない生成戦略を採用し,人間のパースマップやセグメンテーションマスクへの依存を解消する。
大規模な実験により、DS-VTONは最先端の性能を達成できるだけでなく、複数の標準的な仮想試行ベンチマークにおいて、構造的アライメントとテクスチャの忠実さの両方において、従来手法をはるかに上回っていることがわかった。
関連論文リスト
- Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off [9.45991209383675]
仮想的な試行と試行を単一の拡散変換器で共同で学習する統合フレームワークであるVoostを提案する。
Voostは、試行錯誤ベンチマークと試行錯誤ベンチマークの両方で最先端の結果を達成し、アライメント精度、視覚的忠実度、一般化における強いベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-06T19:10:58Z) - OmniVTON: Training-Free Universal Virtual Try-On [53.31945401098557]
イメージベースの仮想トライオン(VTON)技術は、適応性を改善するが、データバイアスと制限された普遍性によって制約される、教師付きインショップアプローチまたは教師なしインザワイルド手法のいずれかに依存している。
OmniVTONは,布地を疎結合にし,テクスチャの忠実さを両立させ,多様な設定に整合性を持たせるための条件付けを行う,初めてのトレーニングフリーユニバーサルVTONフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T16:37:53Z) - DiffFit: Disentangled Garment Warping and Texture Refinement for Virtual Try-On [3.5655800569257896]
VTON(Virtual try-on)は、ターゲット服を着用している人のリアルなイメージを、電子商取引やデジタルファッションに広く応用することを目的としている。
DiffFitは,高忠実度仮想試行のための新しい2段階遅延拡散フレームワークである。
論文 参考訳(メタデータ) (2025-06-29T15:31:42Z) - HF-VTON: High-Fidelity Virtual Try-On via Consistent Geometric and Semantic Alignment [11.00877062567135]
HF-VTONは,多種多様なポーズにおける高忠実度仮想トライオン性能を保証する新しいフレームワークである。
HF-VTONは3つの主要なモジュールで構成されている: 外観保存型ワープアライメントモジュール、セマンティック表現モジュール、およびマルチモーダル事前誘導型外観生成モジュール。
実験の結果,HF-VTONはVITON-HDとSAMP-VTONSの両方で最先端の手法より優れていた。
論文 参考訳(メタデータ) (2025-05-26T07:55:49Z) - UniViTAR: Unified Vision Transformer with Native Resolution [37.63387029787732]
UniViTARは、視覚の統一性とネイティブ解像度のシナリオに適した、均質な視覚基盤モデルのファミリーである。
2つのコアメカニズムを戦略的に組み合わせたプログレッシブトレーニングパラダイムが導入された。
並行して、ハイブリッドトレーニングフレームワークは、凍結教師モデルからの特徴蒸留に伴うシグモイドに基づくコントラスト損失をさらにシナジする。
論文 参考訳(メタデータ) (2025-04-02T14:59:39Z) - Aligning Foundation Model Priors and Diffusion-Based Hand Interactions for Occlusion-Resistant Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置や閉塞が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本研究では,基礎モデルに基づく2次元先行モデルと拡散に基づく相互作用改善を組み込むことにより,手振りとインタラクションを正確に整合させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - 1-2-1: Renaissance of Single-Network Paradigm for Virtual Try-On [17.226542332700607]
本稿では,既存の手法の限界を克服する新しいシングルネットワークVTON法を提案する。
MNVTONと呼ばれる本手法では,テキスト,画像,ビデオの入力を別々に処理するモダリティ固有の正規化戦略を導入する。
その結果,シングルネットワーク・パラダイムはデュアルネットワーク・アプローチのパフォーマンスに匹敵する可能性が示唆された。
論文 参考訳(メタデータ) (2025-01-09T16:49:04Z) - D$^4$-VTON: Dynamic Semantics Disentangling for Differential Diffusion based Virtual Try-On [32.73798955587999]
D$4$-VTONは画像ベースの仮想試行のための革新的なソリューションである。
我々は,服飾の前後における意味的不整合など,過去の研究の課題に対処する。
論文 参考訳(メタデータ) (2024-07-21T10:40:53Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。