論文の概要: Enhancing Virtual Try-On with Synthetic Pairs and Error-Aware Noise Scheduling
- arxiv url: http://arxiv.org/abs/2501.04666v1
- Date: Wed, 08 Jan 2025 18:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:55:50.117555
- Title: Enhancing Virtual Try-On with Synthetic Pairs and Error-Aware Noise Scheduling
- Title(参考訳): 合成ペアと誤り認識型ノイズスケジューリングによる仮想トライオンの強化
- Authors: Nannan Li, Kevin J. Shih, Bryan A. Plummer,
- Abstract要約: 本研究では,着物の単一画像から(人間,合成衣服)対を生成する衣服抽出モデルを提案する。
また,局所的な生成誤りを外科的にターゲットとした誤り認識型Schr"odinger Bridge(EARSB)を提案する。
ユーザスタディでは,平均59%のケースで,このモデルが好まれる。
- 参考スコア(独自算出の注目度): 20.072689146353348
- License:
- Abstract: Given an isolated garment image in a canonical product view and a separate image of a person, the virtual try-on task aims to generate a new image of the person wearing the target garment. Prior virtual try-on works face two major challenges in achieving this goal: a) the paired (human, garment) training data has limited availability; b) generating textures on the human that perfectly match that of the prompted garment is difficult, often resulting in distorted text and faded textures. Our work explores ways to tackle these issues through both synthetic data as well as model refinement. We introduce a garment extraction model that generates (human, synthetic garment) pairs from a single image of a clothed individual. The synthetic pairs can then be used to augment the training of virtual try-on. We also propose an Error-Aware Refinement-based Schr\"odinger Bridge (EARSB) that surgically targets localized generation errors for correcting the output of a base virtual try-on model. To identify likely errors, we propose a weakly-supervised error classifier that localizes regions for refinement, subsequently augmenting the Schr\"odinger Bridge's noise schedule with its confidence heatmap. Experiments on VITON-HD and DressCode-Upper demonstrate that our synthetic data augmentation enhances the performance of prior work, while EARSB improves the overall image quality. In user studies, our model is preferred by the users in an average of 59% of cases.
- Abstract(参考訳): この仮想試着課題は、標準製品ビューで分離された衣服画像と、人の別画像とが与えられた場合、対象の衣服を装着する人の新しい画像を生成することを目的としている。
仮想試行錯誤は、この目標を達成する上で2つの大きな課題に直面します。
a) 対の(人,衣服)訓練データには,可用性が制限されていること。
b) 引き起こされた衣服と完全に一致するテクスチャをヒトに生成することは困難であり、しばしば歪んだテクスチャと失明したテクスチャを生じる。
我々の研究は、合成データとモデル改良の両方を通して、これらの問題に対処する方法を探究する。
本研究では,着物の単一画像から(人間,合成衣服)対を生成する衣服抽出モデルを提案する。
合成ペアは仮想トライオンのトレーニングを強化するために使用することができる。
また,Error-Aware Refinement-based Schr\"odinger Bridge (EARSB)を提案する。
そこで本研究では,改良のために領域をローカライズする弱い教師付き誤り分類器を提案し,その信頼性熱マップを用いてSchr\\odinger Bridgeのノイズスケジュールを拡大する。
VITON-HD と DressCode-Upper の実験により,我々の合成データ拡張により先行処理の性能が向上し,EARSB は全体の画質が向上することを示した。
ユーザスタディでは,平均59%のケースで,このモデルが好まれる。
関連論文リスト
- Improving Virtual Try-On with Garment-focused Diffusion Models [91.95830983115474]
拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。
私たちは新しい拡散モデル、すなわちGarDiffを作り、衣服中心の拡散プロセスを引き起こします。
VITON-HDおよびDressCodeデータセットの実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
論文 参考訳(メタデータ) (2024-09-12T17:55:11Z) - Texture-Preserving Diffusion Models for High-Fidelity Virtual Try-On [29.217423805933727]
拡散モデルに基づくアプローチは,画像合成タスクに優れており,近年普及している。
本稿では,仮想試行のためのテクスチャ保存拡散(TPD)モデルを提案する。
第2に,被写体と参照衣料画像に基づいて,正確な塗布マスクを推定する拡散に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T12:43:22Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - A Two-stage Personalized Virtual Try-on Framework with Shape Control and
Texture Guidance [7.302929117437442]
本稿では,2段階(形状制御とテクスチャガイダンス)を用いて衣服属性を分離する,新しい仮想試行モデル(PE-VITON)を提案する。
提案モデルでは, 衣服の折り畳みの弱さ, 複雑な姿勢下での創出効果の低下, 衣服のぼやけた縁, 従来の試行法では不明瞭なテクスチャスタイルを効果的に解決することができる。
論文 参考訳(メタデータ) (2023-12-24T13:32:55Z) - StableVITON: Learning Semantic Correspondence with Latent Diffusion
Model for Virtual Try-On [35.227896906556026]
衣服画像と人物画像が与えられた場合、画像ベースの仮想試行は、衣服画像の特徴を自然に正確に反映した、カスタマイズされた画像を生成することを目的としている。
本研究では,事前学習した拡散モデルの適用性を拡張し,仮想試行作業に独立して利用できるようにすることを目的とする。
提案するゼロ・クロスアテンションブロックは, 意味的対応を学習することで衣服の細部を保存できるだけでなく, ワープ過程における事前学習モデル固有の知識を利用して高忠実度画像を生成する。
論文 参考訳(メタデータ) (2023-12-04T08:27:59Z) - CamDiff: Camouflage Image Augmentation via Diffusion Model [83.35960536063857]
CamDiffは、カモフラージュされたシーンで透明なオブジェクトを合成するための新しいアプローチだ。
我々は,潜伏拡散モデルを用いて,カモフラージュされたシーンで有能な物体を合成する。
当社のアプローチでは、フレキシブルな編集と大規模データセットの効率的な生成を低コストで実現している。
論文 参考訳(メタデータ) (2023-04-11T19:37:47Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Data Augmentation using Random Image Cropping for High-resolution
Virtual Try-On (VITON-CROP) [18.347532903864597]
VITON-CROPは、既存の最先端仮想試行モデルと比較して、ランダムな作物増収と統合した場合、画像をより堅牢に合成する。
実験では,VITON-CROPがVITON-HDより質的,定量的に優れていることを示した。
論文 参考訳(メタデータ) (2021-11-16T07:40:16Z) - Cloth Interactive Transformer for Virtual Try-On [106.21605249649957]
本稿では,仮想試行作業のための2段階のインタラクティブトランス (CIT) 手法を提案する。
第1段階では, CITマッチングブロックを設計し, 着物非依存者情報と着物内布情報との長距離相関関係を正確に把握することを目的とした。
第2段階では,人物表現のグローバルな相互相互依存関係を確立するためのCIT推論ブロック,整形衣料品,およびそれに対応する整形布マスクを作成した。
論文 参考訳(メタデータ) (2021-04-12T14:45:32Z) - You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文 参考訳(メタデータ) (2020-12-08T23:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。