論文の概要: What Matters in Virtual Try-Off? Dual-UNet Diffusion Model For Garment Reconstruction
- arxiv url: http://arxiv.org/abs/2604.08716v1
- Date: Thu, 09 Apr 2026 19:09:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.551831
- Title: What Matters in Virtual Try-Off? Dual-UNet Diffusion Model For Garment Reconstruction
- Title(参考訳): バーチャルトライオフの何が問題か? ガーメント再構築のためのデュアルUNet拡散モデル
- Authors: Loc-Phat Truong, Meysam Madadi, Sergio Escalera,
- Abstract要約: 我々は,VTONと一般潜在拡散モデルから,様々な拡散に基づく戦略を研究・適応する。
我々のフレームワークは、主要な指標である DisTS に対して 9.5% の低下で最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 43.60751546139023
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Virtual Try-On (VTON) has seen rapid advancements, providing a strong foundation for generative fashion tasks. However, the inverse problem, Virtual Try-Off (VTOFF)-aimed at reconstructing the canonical garment from a draped-on image-remains a less understood domain, distinct from the heavily researched field of VTON. In this work, we seek to establish a robust architectural foundation for VTOFF by studying and adapting various diffusion-based strategies from VTON and general Latent Diffusion Models (LDMs). We focus our investigation on the Dual-UNet Diffusion Model architecture and analyze three axes of design: (i) Generation Backbone: comparing Stable Diffusion variants; (ii) Conditioning: ablating different mask designs, masked/unmasked inputs for image conditioning, and the utility of high-level semantic features; and (iii) Losses and Training Strategies: evaluating the impact of the auxiliary attention-based loss, perceptual objectives and multi-stage curriculum schedules. Extensive experiments reveal trade-offs across various configuration options. Evaluated on VITON-HD and DressCode datasets, our framework achieves state-of-the-art performance with a drop of 9.5\% on the primary metric DISTS and competitive performance on LPIPS, FID, KID, and SSIM, providing both stronger baselines and insights to guide future Virtual Try-Off research.
- Abstract(参考訳): VTON(Virtual Try-On)は急速に進歩し、生成ファッションタスクの強力な基盤となっている。
しかし、逆問題である仮想トライオフ(VTOFF)は、VTONの非常に研究されている分野とは別として、ドレープオン画像から標準衣服を再構築する際に用いられる。
本稿では,VTON と一般ラテント拡散モデル (LDM) からの拡散に基づく様々な戦略を研究,適応させることにより,VTOFF の堅牢なアーキテクチャ基盤を確立することを目的とする。
我々はDual-UNet拡散モデルアーキテクチャに焦点をあて、設計の3つの軸を解析する。
(i)世代バックボーン:安定拡散変種の比較
(二)条件付け:異なるマスクデザイン、画像コンディショニングのためのマスク付き/非マスク入力、高レベルの意味的特徴の活用
三 損失・訓練方略 補助的注意に基づく損失、知覚目標及び多段階カリキュラムのスケジュールの影響を評価すること。
大規模な実験では、さまざまな構成オプションのトレードオフが明らかになっている。
我々のフレームワークはVITON-HDとDressCodeのデータセットに基づいて評価され、主要な測定基準であるDITSとLPIPS、FID、KID、SSIMの競合性能を9.5倍に減らし、最先端のパフォーマンスを達成する。
関連論文リスト
- Modeling Cross-vision Synergy for Unified Large Vision Model [130.37489011094036]
PolyVは、アーキテクチャレベルとトレーニングレベルの両方で、クロスビジョンのシナジーを実現する統一された大型ビジョンモデルである。
PolyVは既存のモデルを一貫して上回り、バックボーンの10%以上の平均的な改善を実現している。
論文 参考訳(メタデータ) (2026-03-03T22:44:43Z) - Rethinking Garment Conditioning in Diffusion-based Virtual Try-On [7.386027762996787]
高速な単一UNetモデルであるRe-CatVTONを開発した。
提案されたRe-CatVTONは前機種に比べて性能が大幅に向上した。
その結果,FID,KID,LPIPSのスコアは改善し,SSIMはわずかに低下した。
論文 参考訳(メタデータ) (2025-11-24T05:19:44Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - DS-VTON: An Enhanced Dual-Scale Coarse-to-Fine Framework for Virtual Try-On [33.05238077456732]
仮想試行のための拡張デュアルスケール粗大化フレームワークDS-VTONを提案する。
DS-VTONは2つの段階から構成される: 第一は、衣服と身体の間の意味的対応を捉えるために、低解像度の試行結果を生成する。
第2段階では、混合精製拡散過程は、スケール間の残留物を精製することによって高分解能出力を再構成する。
論文 参考訳(メタデータ) (2025-06-01T08:52:57Z) - HF-VTON: High-Fidelity Virtual Try-On via Consistent Geometric and Semantic Alignment [22.960492450413497]
HF-VTONは,多種多様なポーズにおける高忠実度仮想トライオン性能を保証する新しいフレームワークである。
HF-VTONは3つの主要なモジュールで構成されている: 外観保存型ワープアライメントモジュール、セマンティック表現モジュール、およびマルチモーダル事前誘導型外観生成モジュール。
実験の結果,HF-VTONはVITON-HDとSAMP-VTONSの両方で最先端の手法より優れていた。
論文 参考訳(メタデータ) (2025-05-26T07:55:49Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。