論文の概要: Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories
- arxiv url: http://arxiv.org/abs/2603.14153v1
- Date: Sat, 14 Mar 2026 23:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.637305
- Title: Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories
- Title(参考訳): Garments2Look: 衣服とアクセサリーを備えたマルチリファレンス・データセット
- Authors: Junyao Hu, Zhongwei Cheng, Waikeung Wong, Xingxing Zou,
- Abstract要約: Garments2Lookは、衣装レベルのVTONのための最初の大規模マルチモーダルデータセットである。
40のカテゴリーにまたがる80万の多目的対と300以上の細かなサブカテゴリから構成される。
信頼性と多様性のバランスをとるために,我々は合成パイプラインを提案する。
- 参考スコア(独自算出の注目度): 27.58214524973654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Virtual try-on (VTON) has advanced single-garment visualization, yet real-world fashion centers on full outfits with multiple garments, accessories, fine-grained categories, layering, and diverse styling, remaining beyond current VTON systems. Existing datasets are category-limited and lack outfit diversity. We introduce Garments2Look, the first large-scale multimodal dataset for outfit-level VTON, comprising 80K many-garments-to-one-look pairs across 40 major categories and 300+ fine-grained subcategories. Each pair includes an outfit with 3-12 reference garment images (Average 4.48), a model image wearing the outfit, and detailed item and try-on textual annotations. To balance authenticity and diversity, we propose a synthesis pipeline. It involves heuristically constructing outfit lists before generating try-on results, with the entire process subjected to strict automated filtering and human validation to ensure data quality. To probe task difficulty, we adapt SOTA VTON methods and general-purpose image editing models to establish baselines. Results show current methods struggle to try on complete outfits seamlessly and to infer correct layering and styling, leading to misalignment and artifacts.
- Abstract(参考訳): VTON(Virtual try-on)は高度な単衣料ビジュアライゼーションを持つが、複数の衣服、アクセサリー、きめ細かいカテゴリ、階層化、多様なスタイリングを備えたフル衣料品のファッションセンターであり、現在のVTONシステムを超えて残っている。
既存のデータセットはカテゴリ限定であり、服装の多様性がない。
我々はGarments2Lookを紹介した。Garments2Lookは、衣料品レベルのVTONのための最初の大規模マルチモーダルデータセットであり、40のメジャーカテゴリと300以上のきめ細かなサブカテゴリからなる80Kの多ガーメンツ対からなる。
各ペアは、3〜12の参照衣料品画像(平均4.48)と、その衣装を身に着けたモデル画像と、詳細な項目と試用テキストアノテーションを備える。
信頼性と多様性のバランスをとるために,我々は合成パイプラインを提案する。
試行錯誤結果を生成する前に、服飾リストをヒューリスティックに構築し、プロセス全体は厳格な自動フィルタリングと、データ品質を保証するための人間による検証を受ける。
タスクの難しさを探索するために,SOTA VTON法と汎用画像編集モデルを適用し,ベースラインを確立する。
結果として、現在の手法では、完全な服をシームレスに試すのに苦労し、正しい階層化とスタイリングを推し進め、ミスアライメントとアーティファクトに繋がることを示している。
関連論文リスト
- MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data [33.49074848598509]
MV-Fashionは、ドメイン固有のファッション分析のために設計された大規模なマルチビュービデオデータセットである。
80人の多様な被験者から3,273のシークエンスがあり、それぞれ3,10の衣装を着ている。
コアコントリビューションは、ピクセルレベルのセマンティックアノテーションを含むリッチなデータ表現である。
論文 参考訳(メタデータ) (2026-03-09T09:28:15Z) - Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals [76.96387718150542]
テキスト強化Multi-category Virtual Try-Off(TEMU-VTOFF)を提案する。
私たちのアーキテクチャは、画像、テキスト、マスクなどの複数のモードから衣料情報を受け取り、複数のカテゴリで機能するように設計されています。
VITON-HDおよびDress Codeデータセットの実験では、TEMU-VTOFFがVTOFFタスクに新たな最先端を設定していることが示されている。
論文 参考訳(メタデータ) (2025-05-27T11:47:51Z) - COutfitGAN: Learning to Synthesize Compatible Outfits Supervised by Silhouette Masks and Fashion Styles [23.301719420997927]
本稿では,任意の数のファッションアイテムに基づいて,相補的で相補的なファッションアイテムを生成する新しいタスクを提案する。
特に,衣服を構成することができるファッションアイテムを考えると,この論文の目的は,特定のファッションアイテムと互換性のある他の補完的なファッションアイテムの写実的なイメージを合成することである。
これを実現するために、ピラミッドスタイル抽出器、衣装生成装置、UNetベースのリアル/フェイク判別器、コロケーション判別器を含む、CoutfitGANと呼ばれる衣服生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T03:32:28Z) - Learning to Synthesize Compatible Fashion Items Using Semantic Alignment and Collocation Classification: An Outfit Generation Framework [59.09707044733695]
衣料品全体を合成することを目的とした,新しい衣料品生成フレームワークであるOutfitGANを提案する。
OutfitGANにはセマンティックアライメントモジュールがあり、既存のファッションアイテムと合成アイテムのマッピング対応を特徴付ける。
提案モデルの性能を評価するため,20,000のファッション衣装からなる大規模データセットを構築した。
論文 参考訳(メタデータ) (2025-02-05T12:13:53Z) - MV-VTON: Multi-View Virtual Try-On with Diffusion Models [91.71150387151042]
画像ベースの仮想試着の目的は、与えられた衣服を自然に身に着けている対象者の画像を生成することである。
既存の方法は、前頭服を用いた正面試着のみに焦点をあてる方法である。
本稿では,服の複数ビューからドレッシング結果を再構築することを目的としたMulti-View Virtual Try-ON(MV-VTON)を紹介する。
論文 参考訳(メタデータ) (2024-04-26T12:27:57Z) - VICTOR: Visual Incompatibility Detection with Transformers and
Fashion-specific contrastive pre-training [18.753508811614644]
Visual InCompatibility TransfORmer (VICTOR) は、1) 回帰としての全体的な互換性、2) ミスマッチアイテムの検出の2つのタスクに最適化されている。
Polyvore-MISFITと呼ばれる新しいデータセットを作成し、部分的にミスマッチした服を生成するために、Polyvoreの服のベンチマークを構築した。
一連のアブレーションと比較分析により、提案されたアーキテクチャは、現在のPolyvoreデータセットの最先端を競合し、越えることが可能であることを示している。
論文 参考訳(メタデータ) (2022-07-27T11:18:55Z) - Semi-Supervised Visual Representation Learning for Fashion Compatibility [17.893627646979038]
そこで本研究では,フライ時に擬陽性で擬陰性な衣服を作成できる半教師付き学習手法を提案する。
トレーニングバッチ内の各ラベル付き服について、ラベル付服の各項目とラベル付品とをマッチングすることにより、擬似アウトフィットを得る。
我々はPolyvore、Polyvore-D、新たに作成した大規模Fashion Outfitsデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-09-16T15:35:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。