論文の概要: MuGa-VTON: Multi-Garment Virtual Try-On via Diffusion Transformers with Prompt Customization
- arxiv url: http://arxiv.org/abs/2508.08488v1
- Date: Mon, 11 Aug 2025 21:45:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.239623
- Title: MuGa-VTON: Multi-Garment Virtual Try-On via Diffusion Transformers with Prompt Customization
- Title(参考訳): MuGa-VTON: プロンプトカスタマイズ付き拡散変換器によるマルチゲージ仮想トライオン
- Authors: Ankan Deria, Dwarikanath Mahapatra, Behzad Bozorgtabar, Mohna Chakraborty, Snehashis Chakraborty, Sudipta Roy,
- Abstract要約: 我々は,上着と下着を共用した多目的拡散フレームワーク MuGa-VTON を紹介する。
このアーキテクチャはプロンプトベースのカスタマイズをサポートし、最小限のユーザ入力できめ細かい衣服の修正を可能にする。
- 参考スコア(独自算出の注目度): 19.780800887427937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Virtual try-on seeks to generate photorealistic images of individuals in desired garments, a task that must simultaneously preserve personal identity and garment fidelity for practical use in fashion retail and personalization. However, existing methods typically handle upper and lower garments separately, rely on heavy preprocessing, and often fail to preserve person-specific cues such as tattoos, accessories, and body shape-resulting in limited realism and flexibility. To this end, we introduce MuGa-VTON, a unified multi-garment diffusion framework that jointly models upper and lower garments together with person identity in a shared latent space. Specifically, we proposed three key modules: the Garment Representation Module (GRM) for capturing both garment semantics, the Person Representation Module (PRM) for encoding identity and pose cues, and the A-DiT fusion module, which integrates garment, person, and text-prompt features through a diffusion transformer. This architecture supports prompt-based customization, allowing fine-grained garment modifications with minimal user input. Extensive experiments on the VITON-HD and DressCode benchmarks demonstrate that MuGa-VTON outperforms existing methods in both qualitative and quantitative evaluations, producing high-fidelity, identity-preserving results suitable for real-world virtual try-on applications.
- Abstract(参考訳): 仮想試行は、ファッション小売やパーソナライゼーションで実際に使用するためには、個人のアイデンティティと衣服の忠実さを同時に保持する必要がある。
しかし、既存の方法では通常上着と下着を別々に扱い、重い前処理に依存し、タトゥー、アクセサリー、身体の形状を制限されたリアリズムと柔軟性で保存することができないことが多い。
この目的のために,MuGa-VTONを導入する。これは,上着と下着を共用した多目的拡散フレームワークである。
具体的には,衣服のセマンティクスをキャプチャするGarment Representation Module (GRM) と,アイデンティティとポーズのキューをエンコードするPerson Representation Module (PRM) と,拡散トランスフォーマーによる衣服,人,テキストのプロンプト機能を統合したA-DiT融合モジュールの3つの主要なモジュールを提案する。
このアーキテクチャはプロンプトベースのカスタマイズをサポートし、最小限のユーザ入力できめ細かい衣服の修正を可能にする。
VITON-HDとDressCodeのベンチマークによる大規模な実験により、MuGa-VTONは定性評価と定量的評価の両方において既存の手法よりも優れており、実世界の仮想トライオンアプリケーションに適した高忠実でアイデンティティ保護の結果が得られている。
関連論文リスト
- Undress to Redress: A Training-Free Framework for Virtual Try-On [19.00614787972817]
既存のVTONメソッドとシームレスに統合可能なトレーニングフリーフレームワークであるUR-VTON(Undress-Redress Virtual Try-ON)を提案する。
UR-VTON は 'undress-to-redress' というメカニズムを導入している。
また、長袖から短袖へのトライオンのための新しいベンチマークLS-TONも提示する。
論文 参考訳(メタデータ) (2025-08-11T06:55:49Z) - One Model For All: Partial Diffusion for Unified Try-On and Try-Off in Any Pose [99.056324701764]
textbfOMFA (emphOne Model For All) は仮想トライオンとトライオフの両方のための統合拡散フレームワークである。
フレームワークは完全にマスクフリーで、単一のポートレートとターゲットのポーズのみを入力として必要とします。
試着タスクと試着タスクの両方で最先端の結果が得られ、仮想衣料合成のための実用的で一般化可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-06T15:46:01Z) - OmniVTON: Training-Free Universal Virtual Try-On [53.31945401098557]
イメージベースの仮想トライオン(VTON)技術は、適応性を改善するが、データバイアスと制限された普遍性によって制約される、教師付きインショップアプローチまたは教師なしインザワイルド手法のいずれかに依存している。
OmniVTONは,布地を疎結合にし,テクスチャの忠実さを両立させ,多様な設定に整合性を持たせるための条件付けを行う,初めてのトレーニングフリーユニバーサルVTONフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T16:37:53Z) - Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals [76.96387718150542]
テキスト強化Multi-category Virtual Try-Off(TEMU-VTOFF)を提案する。
私たちのアーキテクチャは、画像、テキスト、マスクなどの複数のモードから衣料情報を受け取り、複数のカテゴリで機能するように設計されています。
VITON-HDおよびDress Codeデータセットの実験では、TEMU-VTOFFがVTOFFタスクに新たな最先端を設定していることが示されている。
論文 参考訳(メタデータ) (2025-05-27T11:47:51Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。