論文の概要: Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals
- arxiv url: http://arxiv.org/abs/2505.21062v1
- Date: Tue, 27 May 2025 11:47:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.617085
- Title: Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals
- Title(参考訳): Inverse Virtual Try-On: 衣服着用者から複数カテゴリの製品スタイル画像を生成する
- Authors: Davide Lobba, Fulvio Sanguigni, Bin Ren, Marcella Cornia, Rita Cucchiara, Nicu Sebe,
- Abstract要約: テキスト強化Multi-category Virtual Try-Off(TEMU-VTOFF)を提案する。
私たちのアーキテクチャは、画像、テキスト、マスクなどの複数のモードから衣料情報を受け取り、複数のカテゴリで機能するように設計されています。
VITON-HDおよびDress Codeデータセットの実験では、TEMU-VTOFFがVTOFFタスクに新たな最先端を設定していることが示されている。
- 参考スコア(独自算出の注目度): 76.96387718150542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While virtual try-on (VTON) systems aim to render a garment onto a target person image, this paper tackles the novel task of virtual try-off (VTOFF), which addresses the inverse problem: generating standardized product images of garments from real-world photos of clothed individuals. Unlike VTON, which must resolve diverse pose and style variations, VTOFF benefits from a consistent and well-defined output format -- typically a flat, lay-down-style representation of the garment -- making it a promising tool for data generation and dataset enhancement. However, existing VTOFF approaches face two major limitations: (i) difficulty in disentangling garment features from occlusions and complex poses, often leading to visual artifacts, and (ii) restricted applicability to single-category garments (e.g., upper-body clothes only), limiting generalization. To address these challenges, we present Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), a novel architecture featuring a dual DiT-based backbone with a modified multimodal attention mechanism for robust garment feature extraction. Our architecture is designed to receive garment information from multiple modalities like images, text, and masks to work in a multi-category setting. Finally, we propose an additional alignment module to further refine the generated visual details. Experiments on VITON-HD and Dress Code datasets show that TEMU-VTOFF sets a new state-of-the-art on the VTOFF task, significantly improving both visual quality and fidelity to the target garments.
- Abstract(参考訳): 仮想試着システム(VTON)は,対象人物画像に衣服をレンダリングすることを目的としているが,その逆問題に対処する仮想試着(VTOFF)の新たな課題に対処する。
さまざまなポーズとスタイルのバリエーションを解決しなければならないVTONとは異なり、VTOFFは一貫性のある、明確に定義された出力フォーマット – 一般的にはフラットでレイダウンスタイルの服の表現 – から恩恵を受けており、データ生成とデータセット拡張のための有望なツールである。
しかしながら、既存のVTOFFアプローチには2つの大きな制限がある。
一 衣服の特徴を隠蔽や複雑なポーズから切り離すことの難しさで、しばしば視覚的な工芸品に繋がる
(二)単衣(例えば上着のみ)への適用が制限され、一般化が制限された。
このような課題に対処するために,テキスト拡張MUltiカテゴリ仮想トライオフ(TEMU-VTOFF)を提案する。
私たちのアーキテクチャは、画像、テキスト、マスクなどの複数のモードから衣料情報を受け取り、複数のカテゴリで機能するように設計されています。
最後に、生成した視覚的詳細をさらに洗練するためのアライメントモジュールを提案する。
VITON-HDおよびDress Codeデータセットの実験では、TEMU-VTOFFがVTOFFタスクに新たな最先端を設定し、ターゲットの衣服に対する視覚的品質と忠実性の両方を著しく改善している。
関連論文リスト
- OmniVTON: Training-Free Universal Virtual Try-On [53.31945401098557]
イメージベースの仮想トライオン(VTON)技術は、適応性を改善するが、データバイアスと制限された普遍性によって制約される、教師付きインショップアプローチまたは教師なしインザワイルド手法のいずれかに依存している。
OmniVTONは,布地を疎結合にし,テクスチャの忠実さを両立させ,多様な設定に整合性を持たせるための条件付けを行う,初めてのトレーニングフリーユニバーサルVTONフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T16:37:53Z) - MGT: Extending Virtual Try-Off to Multi-Garment Scenarios [8.158200403139196]
本稿では,多様な衣料品を扱える拡散型VTOFFモデルであるMulti-Garment TryOffDiff(MGT)を紹介する。
MGTはクラス固有の埋め込みを導入し、VITON-HDの最先端のVTOFF結果とDressCodeの競合性能を実現している。
論文 参考訳(メタデータ) (2025-04-17T16:45:18Z) - TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models [8.158200403139196]
本報告では,仮想トライオフ(Virtual Try-Off, VTOFF)について紹介する。
本稿では,SigLIPに基づく視覚条件付き安定拡散モデルTryOffDiffを提案する。
本研究は,電子商取引アプリケーションにおける製品イメージの向上,生成モデル評価の進展,高忠実度再構築に向けた今後の取り組みを示唆するものである。
論文 参考訳(メタデータ) (2024-11-27T13:53:09Z) - FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on [73.13242624924814]
Diffusion Transformer (DiT) を用いた高忠実度仮想試行用ガーメント知覚増強技術FitDiT
布地テクスチャ抽出装置を導入し, 布地や模様, テクスチャなどのリッチな細部を, よりよく捉えられるようにした。
また,クロスカテゴリー試着中にマスク領域全体を埋める衣服の発生を防止し,衣料の正しい長さに適応する拡張緩和マスク戦略を採用した。
論文 参考訳(メタデータ) (2024-11-15T11:02:23Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - AnyFit: Controllable Virtual Try-on for Any Combination of Attire Across Any Scenario [50.62711489896909]
AnyFitは、高解像度のベンチマークと実世界のデータのベースラインを、大きなギャップで上回っている。
AnyFitの高忠実度バーチャル試作品における印象的なパフォーマンスは、あらゆるイメージから見ても、ファッションコミュニティにおける将来の研究の新たな道を切り開くものです。
論文 参考訳(メタデータ) (2024-05-28T13:33:08Z) - MV-VTON: Multi-View Virtual Try-On with Diffusion Models [91.71150387151042]
画像ベースの仮想試着の目的は、与えられた衣服を自然に身に着けている対象者の画像を生成することである。
既存の方法は、前頭服を用いた正面試着のみに焦点をあてる方法である。
本稿では,服の複数ビューからドレッシング結果を再構築することを目的としたMulti-View Virtual Try-ON(MV-VTON)を紹介する。
論文 参考訳(メタデータ) (2024-04-26T12:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。