論文の概要: MF-VITON: High-Fidelity Mask-Free Virtual Try-On with Minimal Input
- arxiv url: http://arxiv.org/abs/2503.08650v1
- Date: Tue, 11 Mar 2025 17:40:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:42:25.668011
- Title: MF-VITON: High-Fidelity Mask-Free Virtual Try-On with Minimal Input
- Title(参考訳): MF-VITON:最小入力による高忠実マスクフリーバーチャルトライオン
- Authors: Zhenchen Wan, Yanwu xu, Dongting Hu, Weilun Cheng, Tianxi Chen, Zhaoqing Wang, Feng Liu, Tongliang Liu, Mingming Gong,
- Abstract要約: 本研究では,一人のイメージとターゲット衣服のみを用いて,現実的なVITONを実現するMask-Free VITONフレームワークを提案する。
既存のMaskベースのVITONモデルを利用して高品質なデータセットを合成する。
このデータセットには、多様で現実的な人物画像とそれに対応する衣服が含まれており、背景も様々で、現実世界のシナリオを模倣している。
- 参考スコア(独自算出の注目度): 69.33864837012202
- License:
- Abstract: Recent advancements in Virtual Try-On (VITON) have significantly improved image realism and garment detail preservation, driven by powerful text-to-image (T2I) diffusion models. However, existing methods often rely on user-provided masks, introducing complexity and performance degradation due to imperfect inputs, as shown in Fig.1(a). To address this, we propose a Mask-Free VITON (MF-VITON) framework that achieves realistic VITON using only a single person image and a target garment, eliminating the requirement for auxiliary masks. Our approach introduces a novel two-stage pipeline: (1) We leverage existing Mask-based VITON models to synthesize a high-quality dataset. This dataset contains diverse, realistic pairs of person images and corresponding garments, augmented with varied backgrounds to mimic real-world scenarios. (2) The pre-trained Mask-based model is fine-tuned on the generated dataset, enabling garment transfer without mask dependencies. This stage simplifies the input requirements while preserving garment texture and shape fidelity. Our framework achieves state-of-the-art (SOTA) performance regarding garment transfer accuracy and visual realism. Notably, the proposed Mask-Free model significantly outperforms existing Mask-based approaches, setting a new benchmark and demonstrating a substantial lead over previous approaches. For more details, visit our project page: https://zhenchenwan.github.io/MF-VITON/.
- Abstract(参考訳): VITON(Virtual Try-On)の最近の進歩は、強力なテキスト・ツー・イメージ(T2I)拡散モデルにより、画像リアリズムと衣服の細部保存を大幅に改善した。
しかし、既存の手法はユーザーが提供するマスクに依存し、図1(a)に示すように、不完全な入力による複雑さや性能低下をもたらすことが多い。
これを解決するために,マスクフリーVITON (MF-VITON) フレームワークを提案する。
1) 既存のMaskベースのVITONモデルを利用して高品質なデータセットを合成する。
このデータセットには、多様で現実的な人物画像とそれに対応する衣服が含まれており、背景も様々で、現実世界のシナリオを模倣している。
2) トレーニング済みのMaskベースのモデルは、生成されたデータセットに基づいて微調整され、マスク依存なしに衣服の移動を可能にする。
この段階は、衣服のテクスチャと形状の忠実さを保ちながら、入力要求を単純化する。
本フレームワークは,衣料品の転送精度と視覚リアリズムに関する最先端(SOTA)性能を実現する。
特に、提案されたMask-Freeモデルは、既存のMaskベースのアプローチを著しく上回り、新しいベンチマークを設定し、以前のアプローチよりもかなりのリードを示している。
詳細については、プロジェクトのページを参照してください。
関連論文リスト
- BooW-VTON: Boosting In-the-Wild Virtual Try-On via Mask-Free Pseudo Data Training [32.77901123889236]
近年の仮想試行法は、人物画像のマスキングを必要とするイメージマスク・インペイントタスクとしてモデル化されている。
本研究は,マスクレスアプローチにより,人物画像からの空間的・照明的情報を完全に活用できることを見出した。
マスクのない仮想トライオン拡散モデルであるBooW-VTONを導入する。
論文 参考訳(メタデータ) (2024-08-12T10:39:59Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。
我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-07-02T10:55:43Z) - Texture-Preserving Diffusion Models for High-Fidelity Virtual Try-On [29.217423805933727]
拡散モデルに基づくアプローチは,画像合成タスクに優れており,近年普及している。
本稿では,仮想試行のためのテクスチャ保存拡散(TPD)モデルを提案する。
第2に,被写体と参照衣料画像に基づいて,正確な塗布マスクを推定する拡散に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T12:43:22Z) - Time-Efficient and Identity-Consistent Virtual Try-On Using A Variant of Altered Diffusion Models [4.038493506169702]
本研究は, 複雑なテクスチャの詳細と, 対象者と衣服の特徴を, 様々なシナリオで保存することの課題を強調する。
様々な既存アプローチが検討され、制限と未解決の側面を強調している。
次に,仮想試行中にテクスチャのテクスチャ保存とユーザアイデンティティ保持に対処する,新しい拡散型ソリューションを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:15:29Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Masked Frequency Modeling for Self-Supervised Visual Pre-Training [102.89756957704138]
MFM(Masked Frequency Modeling)は、視覚モデルの自己教師付き事前学習のための統合周波数領域に基づくアプローチである。
MFMはまず入力画像の周波数成分の一部をマスクアウトし、周波数スペクトルの欠落周波数を予測する。
MFMは初めて、ViTとCNNの両方で、単純な非シームフレームワークは、以下のものを使って意味のある表現を学習できることを示した。
論文 参考訳(メタデータ) (2022-06-15T17:58:30Z) - Contrastive Context-Aware Learning for 3D High-Fidelity Mask Face
Presentation Attack Detection [103.7264459186552]
顔認識システムには、顔提示攻撃検出(PAD)が不可欠である。
ほとんどの既存の3DマスクPADベンチマークにはいくつかの欠点があります。
現実世界のアプリケーションとのギャップを埋めるために、大規模なハイファイアリティマスクデータセットを紹介します。
論文 参考訳(メタデータ) (2021-04-13T12:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。