論文の概要: BooW-VTON: Boosting In-the-Wild Virtual Try-On via Mask-Free Pseudo Data Training
- arxiv url: http://arxiv.org/abs/2408.06047v1
- Date: Mon, 12 Aug 2024 10:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:25:27.694695
- Title: BooW-VTON: Boosting In-the-Wild Virtual Try-On via Mask-Free Pseudo Data Training
- Title(参考訳): BooW-VTON:マスクなし擬似データトレーニングによるWild仮想トライオンの強化
- Authors: Xuanpu Zhang, Dan Song, Pengxin Zhan, Qingguo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Anan Liu,
- Abstract要約: 本研究では,野生のシナリオから大規模未経験トレーニングデータを取得するための,効率的なデータ拡張手法と組み合わせた新しいトレーニングパラダイムを提案する。
提案手法は,入力として基準布画像,原ポーズ画像,原人物画像のみを必要とする。
- 参考スコア(独自算出の注目度): 35.07106410337915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based virtual try-on is an increasingly popular and important task to generate realistic try-on images of specific person. Existing methods always employ an accurate mask to remove the original garment in the source image, thus achieving realistic synthesized images in simple and conventional try-on scenarios based on powerful diffusion model. Therefore, acquiring suitable mask is vital to the try-on performance of these methods. However, obtaining precise inpainting masks, especially for complex wild try-on data containing diverse foreground occlusions and person poses, is not easy as Figure 1-Top shows. This difficulty often results in poor performance in more practical and challenging real-life scenarios, such as the selfie scene shown in Figure 1-Bottom. To this end, we propose a novel training paradigm combined with an efficient data augmentation method to acquire large-scale unpaired training data from wild scenarios, thereby significantly facilitating the try-on performance of our model without the need for additional inpainting masks. Besides, a try-on localization loss is designed to localize a more accurate try-on area to obtain more reasonable try-on results. It is noted that our method only needs the reference cloth image, source pose image and source person image as input, which is more cost-effective and user-friendly compared to existing methods. Extensive qualitative and quantitative experiments have demonstrated superior performance in wild scenarios with such a low-demand input.
- Abstract(参考訳): 画像ベースの仮想試行は、特定の人のリアルな試行画像を生成するために、ますます人気が高く重要なタスクである。
既存の方法は、常に正確なマスクを用いて、ソース画像の原衣を除去し、強力な拡散モデルに基づいて、単純で従来型の試行錯誤シナリオで現実的な合成画像を実現する。
したがって、これらの手法の試行錯誤には、適切なマスクを取得することが不可欠である。
しかし、特に様々な前景のオクルージョンや人物のポーズを含む複雑なワイルドトライオンデータに対して、正確な塗装マスクを得ることは、図1-Topが示すように容易ではない。
この難しさは、図1-ボトムに示したセルフィーシーンのような、より実用的で挑戦的な現実のシナリオにおいて、しばしばパフォーマンスが低下する。
そこで本研究では,ワイルドシナリオから大規模アンペアトレーニングデータを取得するための,効率的なデータ拡張手法と組み合わせた新たなトレーニングパラダイムを提案する。
さらに、より正確な試行領域をローカライズしてより合理的な試行結果を得るように、試行ローカライズ損失を設計する。
提案手法は,既存の手法に比べてコスト効率が高く,ユーザフレンドリな入力として,基準布画像,原ポーズ画像,原人物画像のみを必要とする。
大規模な定性的および定量的実験は、そのような低要求入力を持つ野生のシナリオにおいて優れた性能を示した。
関連論文リスト
- Texture-Preserving Diffusion Models for High-Fidelity Virtual Try-On [29.217423805933727]
拡散モデルに基づくアプローチは,画像合成タスクに優れており,近年普及している。
本稿では,仮想試行のためのテクスチャ保存拡散(TPD)モデルを提案する。
第2に,被写体と参照衣料画像に基づいて,正確な塗布マスクを推定する拡散に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T12:43:22Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - Street TryOn: Learning In-the-Wild Virtual Try-On from Unpaired Person Images [14.616371216662227]
仮想トライオンアプリケーションをサポートするためのStreetTryOnベンチマークを導入する。
また,一対のデータを必要とせず,一対の人物画像から直接仮想試行を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:02Z) - UMat: Uncertainty-Aware Single Image High Resolution Material Capture [2.416160525187799]
本研究では, 物体の単一拡散像から正規性, 特異性, 粗さを復元する学習手法を提案する。
本手法は材料デジタル化における不確実性をモデル化する問題に最初に対処する手法である。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Masked Image Training for Generalizable Deep Image Denoising [53.03126421917465]
本稿では,デノナイジングネットワークの一般化性能を高めるための新しい手法を提案する。
提案手法では,入力画像のランダムなピクセルをマスキングし,学習中に欠落した情報を再構成する。
提案手法は,他のディープラーニングモデルよりも優れた一般化能力を示し,実世界のシナリオに直接適用可能である。
論文 参考訳(メタデータ) (2023-03-23T09:33:44Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Rethinking Motion Deblurring Training: A Segmentation-Based Method for
Simulating Non-Uniform Motion Blurred Images [0.0]
シャープ/ブルーのイメージペアを生成するための効率的な手続き手法を提案する。
これにより、事実上無制限に現実的で多様なトレーニングペアを生成することができる。
実写映像のブルーリングにおける最終課題に対して,より優れた一般化性能を観察した。
論文 参考訳(メタデータ) (2022-09-26T13:20:35Z) - Perspective Flow Aggregation for Data-Limited 6D Object Pose Estimation [121.02948087956955]
宇宙や水中の深層などのいくつかのアプリケーションでは、実際の画像を取得することは、注釈のないものであっても、事実上不可能である。
本稿では,合成画像のみに限定してトレーニングできる手法を提案する。
これは、アノテートされた実画像を必要としない場合、トレーニングのためにアノテートされた実画像を必要とするメソッドと同等に動作し、20個の実画像を使用する場合、かなりパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-03-18T10:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。