論文の概要: BooW-VTON: Boosting In-the-Wild Virtual Try-On via Mask-Free Pseudo Data Training
- arxiv url: http://arxiv.org/abs/2408.06047v1
- Date: Mon, 12 Aug 2024 10:39:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:25:27.694695
- Title: BooW-VTON: Boosting In-the-Wild Virtual Try-On via Mask-Free Pseudo Data Training
- Title(参考訳): BooW-VTON:マスクなし擬似データトレーニングによるWild仮想トライオンの強化
- Authors: Xuanpu Zhang, Dan Song, Pengxin Zhan, Qingguo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Anan Liu,
- Abstract要約: 本研究では,野生のシナリオから大規模未経験トレーニングデータを取得するための,効率的なデータ拡張手法と組み合わせた新しいトレーニングパラダイムを提案する。
提案手法は,入力として基準布画像,原ポーズ画像,原人物画像のみを必要とする。
- 参考スコア(独自算出の注目度): 35.07106410337915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based virtual try-on is an increasingly popular and important task to generate realistic try-on images of specific person. Existing methods always employ an accurate mask to remove the original garment in the source image, thus achieving realistic synthesized images in simple and conventional try-on scenarios based on powerful diffusion model. Therefore, acquiring suitable mask is vital to the try-on performance of these methods. However, obtaining precise inpainting masks, especially for complex wild try-on data containing diverse foreground occlusions and person poses, is not easy as Figure 1-Top shows. This difficulty often results in poor performance in more practical and challenging real-life scenarios, such as the selfie scene shown in Figure 1-Bottom. To this end, we propose a novel training paradigm combined with an efficient data augmentation method to acquire large-scale unpaired training data from wild scenarios, thereby significantly facilitating the try-on performance of our model without the need for additional inpainting masks. Besides, a try-on localization loss is designed to localize a more accurate try-on area to obtain more reasonable try-on results. It is noted that our method only needs the reference cloth image, source pose image and source person image as input, which is more cost-effective and user-friendly compared to existing methods. Extensive qualitative and quantitative experiments have demonstrated superior performance in wild scenarios with such a low-demand input.
- Abstract(参考訳): 画像ベースの仮想試行は、特定の人のリアルな試行画像を生成するために、ますます人気が高く重要なタスクである。
既存の方法は、常に正確なマスクを用いて、ソース画像の原衣を除去し、強力な拡散モデルに基づいて、単純で従来型の試行錯誤シナリオで現実的な合成画像を実現する。
したがって、これらの手法の試行錯誤には、適切なマスクを取得することが不可欠である。
しかし、特に様々な前景のオクルージョンや人物のポーズを含む複雑なワイルドトライオンデータに対して、正確な塗装マスクを得ることは、図1-Topが示すように容易ではない。
この難しさは、図1-ボトムに示したセルフィーシーンのような、より実用的で挑戦的な現実のシナリオにおいて、しばしばパフォーマンスが低下する。
そこで本研究では,ワイルドシナリオから大規模アンペアトレーニングデータを取得するための,効率的なデータ拡張手法と組み合わせた新たなトレーニングパラダイムを提案する。
さらに、より正確な試行領域をローカライズしてより合理的な試行結果を得るように、試行ローカライズ損失を設計する。
提案手法は,既存の手法に比べてコスト効率が高く,ユーザフレンドリな入力として,基準布画像,原ポーズ画像,原人物画像のみを必要とする。
大規模な定性的および定量的実験は、そのような低要求入力を持つ野生のシナリオにおいて優れた性能を示した。
関連論文リスト
- PainterNet: Adaptive Image Inpainting with Actual-Token Attention and Diverse Mask Control [4.984382582612786]
PainterNetは様々な拡散モデルに柔軟に埋め込まれるプラグインである。
本稿では,局所的なプロンプト入力,注意制御点(ACP),実際の注意注意損失(ATAL)を提案する。
大規模な実験分析の結果,PaterNetは画像品質やグローバル/ローカルテキスト整合性といった重要な指標において,既存の最先端モデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-12-02T07:40:47Z) - Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - Texture-Preserving Diffusion Models for High-Fidelity Virtual Try-On [29.217423805933727]
拡散モデルに基づくアプローチは,画像合成タスクに優れており,近年普及している。
本稿では,仮想試行のためのテクスチャ保存拡散(TPD)モデルを提案する。
第2に,被写体と参照衣料画像に基づいて,正確な塗布マスクを推定する拡散に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T12:43:22Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Neural Point-based Volumetric Avatar: Surface-guided Neural Points for
Efficient and Photorealistic Volumetric Head Avatar [62.87222308616711]
ニューラルポイント表現とニューラルボリュームレンダリングプロセスを採用したフルネーム(名前)を提案する。
具体的には、ニューラルポイントは高分解能UV変位マップを介してターゲット表現の表面を戦略的に拘束する。
設計上は,アバターをアニメーションする際の正確な表現制御を確保しつつ,地形的に変化する領域や細い構造を扱えるように設計されている。
論文 参考訳(メタデータ) (2023-07-11T03:40:10Z) - Controllable Inversion of Black-Box Face Recognition Models via
Diffusion [8.620807177029892]
我々は,事前学習した顔認識モデルの潜在空間を,完全なモデルアクセスなしで反転させる作業に取り組む。
本研究では,条件付き拡散モデル損失が自然発生し,逆分布から効果的にサンプル化できることを示す。
本手法は,生成過程を直感的に制御できる最初のブラックボックス顔認識モデル逆変換法である。
論文 参考訳(メタデータ) (2023-03-23T03:02:09Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with
Informative-Preserved Reconstruction and Self-Distilled Consistency [120.9499803967496]
本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。
本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。
マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
論文 参考訳(メタデータ) (2022-12-20T01:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。