論文の概要: BooW-VTON: Boosting In-the-Wild Virtual Try-On via Mask-Free Pseudo Data Training
- arxiv url: http://arxiv.org/abs/2408.06047v2
- Date: Fri, 22 Nov 2024 10:45:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:01:18.511799
- Title: BooW-VTON: Boosting In-the-Wild Virtual Try-On via Mask-Free Pseudo Data Training
- Title(参考訳): BooW-VTON:マスクなし擬似データトレーニングによるWild仮想トライオンの強化
- Authors: Xuanpu Zhang, Dan Song, Pengxin Zhan, Tianyu Chang, Jianhao Zeng, Qingguo Chen, Weihua Luo, Anan Liu,
- Abstract要約: 近年の仮想試行法は、人物画像のマスキングを必要とするイメージマスク・インペイントタスクとしてモデル化されている。
本研究は,マスクレスアプローチにより,人物画像からの空間的・照明的情報を完全に活用できることを見出した。
マスクのない仮想トライオン拡散モデルであるBooW-VTONを導入する。
- 参考スコア(独自算出の注目度): 32.77901123889236
- License:
- Abstract: Image-based virtual try-on is an increasingly popular and important task to generate realistic try-on images of the specific person. Recent methods model virtual try-on as image mask-inpaint task, which requires masking the person image and results in significant loss of spatial information. Especially, for in-the-wild try-on scenarios with complex poses and occlusions, mask-based methods often introduce noticeable artifacts. Our research found that a mask-free approach can fully leverage spatial and lighting information from the original person image, enabling high-quality virtual try-on. Consequently, we propose a novel training paradigm for a mask-free try-on diffusion model. We ensure the model's mask-free try-on capability by creating high-quality pseudo-data and further enhance its handling of complex spatial information through effective in-the-wild data augmentation. Besides, a try-on localization loss is designed to concentrate on try-on area while suppressing garment features in non-try-on areas, ensuring precise rendering of garments and preservation of fore/back-ground. In the end, we introduce BooW-VTON, the mask-free virtual try-on diffusion model, which delivers SOTA try-on quality without parsing cost. Extensive qualitative and quantitative experiments have demonstrated superior performance in wild scenarios with such a low-demand input.
- Abstract(参考訳): 画像ベースの仮想試行は、特定の人のリアルな試行画像を生成するために、ますます人気が高く重要なタスクである。
近年の仮想試行は、人物画像のマスキングを要し、空間情報のかなりの損失をもたらすイメージマスク・インペイントタスクとしてモデル化されている。
特に、複雑なポーズとオクルージョンを持つワイルドな試行シナリオでは、マスクベースの手法がしばしば顕著なアーティファクトを導入している。
マスクのないアプローチでは、元の人物画像からの空間的および照明的情報を活用でき、高品質な仮想試行を可能にする。
そこで本研究では,マスクフリートライオン拡散モデルのための新しいトレーニングパラダイムを提案する。
高品質な擬似データを作成することにより、モデルがマスク無しで試着できるようにし、より効率的なインザミルデータ拡張による複雑な空間情報の取り扱いをさらに強化する。
また、試着場所の喪失は、試着地に集中して、試着地における衣服の特徴を抑え、衣服の正確なレンダリングを確実にし、前景・後景の保存を確実にするように設計されている。
最後に,マスクフリーな仮想トライオン拡散モデルBooW-VTONを導入する。
大規模な定性的および定量的な実験は、そのような低要求の入力を持つ野生のシナリオにおいて優れた性能を示した。
関連論文リスト
- Try-On-Adapter: A Simple and Flexible Try-On Paradigm [42.2724473500475]
オンラインショッピングで広く使われている画像ベースの仮想試着は、特定の衣服に着飾った自然な服装の人のイメージを作成することを目的としている。
従来の手法では、元のモデルの立像の特定の部分をマスキングし、マスクされた領域に塗布することで、対応する参照服を身に着けたモデルのリアルなイメージを生成する。
本稿では,既存の塗装パラダイムと異なる塗装パラダイムであるトライオンアダプタ(TOA)を提案する。
論文 参考訳(メタデータ) (2024-11-15T13:35:58Z) - Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - Texture-Preserving Diffusion Models for High-Fidelity Virtual Try-On [29.217423805933727]
拡散モデルに基づくアプローチは,画像合成タスクに優れており,近年普及している。
本稿では,仮想試行のためのテクスチャ保存拡散(TPD)モデルを提案する。
第2に,被写体と参照衣料画像に基づいて,正確な塗布マスクを推定する拡散に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T12:43:22Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Neural Point-based Volumetric Avatar: Surface-guided Neural Points for
Efficient and Photorealistic Volumetric Head Avatar [62.87222308616711]
ニューラルポイント表現とニューラルボリュームレンダリングプロセスを採用したフルネーム(名前)を提案する。
具体的には、ニューラルポイントは高分解能UV変位マップを介してターゲット表現の表面を戦略的に拘束する。
設計上は,アバターをアニメーションする際の正確な表現制御を確保しつつ,地形的に変化する領域や細い構造を扱えるように設計されている。
論文 参考訳(メタデータ) (2023-07-11T03:40:10Z) - Controllable Inversion of Black-Box Face Recognition Models via
Diffusion [8.620807177029892]
我々は,事前学習した顔認識モデルの潜在空間を,完全なモデルアクセスなしで反転させる作業に取り組む。
本研究では,条件付き拡散モデル損失が自然発生し,逆分布から効果的にサンプル化できることを示す。
本手法は,生成過程を直感的に制御できる最初のブラックボックス顔認識モデル逆変換法である。
論文 参考訳(メタデータ) (2023-03-23T03:02:09Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with
Informative-Preserved Reconstruction and Self-Distilled Consistency [120.9499803967496]
本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。
本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。
マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
論文 参考訳(メタデータ) (2022-12-20T01:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。