論文の概要: Single Stage Multi-Pose Virtual Try-On
- arxiv url: http://arxiv.org/abs/2211.10715v1
- Date: Sat, 19 Nov 2022 15:02:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:07:17.852357
- Title: Single Stage Multi-Pose Virtual Try-On
- Title(参考訳): 単段マルチパスバーチャルトライオン
- Authors: Sen He, Yi-Zhe Song, Tao Xiang
- Abstract要約: Multi-pose Virtual try-on (MPVTON) は、ターゲットの服をターゲットのポーズで人に合わせることを目的としている。
MPVTONは、より良い試着体験を提供するが、二重の衣服と編集目的のポーズのため、さらに難しい。
既存の方法は、ターゲットセマンティックレイアウト予測モジュール、粗い試行画像生成装置、精細化試行画像生成装置を含む3つの不整合モジュールからなるパイプラインを採用する。
本稿では,TONのための新しい単一ステージモデルを提案する。我々のモデルにとってキーとなるのは,人物と衣服の画像の両方のフロー場を予測する並列フロー推定モジュールである。
- 参考スコア(独自算出の注目度): 119.95115739956661
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-pose virtual try-on (MPVTON) aims to fit a target garment onto a person
at a target pose. Compared to traditional virtual try-on (VTON) that fits the
garment but keeps the pose unchanged, MPVTON provides a better try-on
experience, but is also more challenging due to the dual garment and pose
editing objectives. Existing MPVTON methods adopt a pipeline comprising three
disjoint modules including a target semantic layout prediction module, a coarse
try-on image generator and a refinement try-on image generator. These models
are trained separately, leading to sub-optimal model training and
unsatisfactory results. In this paper, we propose a novel single stage model
for MPVTON. Key to our model is a parallel flow estimation module that predicts
the flow fields for both person and garment images conditioned on the target
pose. The predicted flows are subsequently used to warp the appearance feature
maps of the person and the garment images to construct a style map. The map is
then used to modulate the target pose's feature map for target try-on image
generation. With the parallel flow estimation design, our model can be trained
end-to-end in a single stage and is more computationally efficient, resulting
in new SOTA performance on existing MPVTON benchmarks. We further introduce
multi-task training and demonstrate that our model can also be applied for
traditional VTON and pose transfer tasks and achieve comparable performance to
SOTA specialized models on both tasks.
- Abstract(参考訳): Multi-pose Virtual try-on (MPVTON) は、ターゲットの服をターゲットのポーズで人に合わせることを目的としている。
伝統的な仮想試着(VTON)と比べ、ポーズは変わらないが、MPVTONはより優れた試着体験を提供するが、二重の衣服と編集目的のため、より難しい。
既存のMPVTON法では、ターゲットセマンティックレイアウト予測モジュール、粗い試行画像生成器、精細な試行画像生成器を含む3つの不整合モジュールからなるパイプラインを採用している。
これらのモデルは個別に訓練され、最適以下のモデルトレーニングと不満足な結果をもたらす。
本稿では,MPVTONのための新しい単一ステージモデルを提案する。
我々のモデルにおける鍵となるのは、ターゲットポーズに条件付けされた人物と衣服画像の両方のフロー場を予測する並列フロー推定モジュールである。
予測フローは、その後、人物の外観特徴マップと衣料画像とを警告してスタイルマップを構築するために使用される。
次に、ターゲットのポーズの特徴マップを変調して、ターゲットの試行画像を生成する。
並列フロー推定設計により、我々のモデルは1段階のエンドツーエンドで訓練することができ、計算効率が向上し、既存のMPVTONベンチマーク上でのSOTA性能が向上する。
さらに,マルチタスクトレーニングを導入し,従来のvtonおよびspas転送タスクにも適用できることを示し,両タスクのsoma専用モデルと同等の性能を実現する。
関連論文リスト
- MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文 参考訳(メタデータ) (2024-04-16T16:50:35Z) - MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Customize StyleGAN with One Hand Sketch [0.0]
本稿では,単一のユーザスケッチでスタイルGAN画像を制御するフレームワークを提案する。
我々は、エネルギーベース学習により、事前学習したStyleGANモデルの潜在空間における条件分布を学習する。
我々のモデルは、入力スケッチにセマンティックに整合したマルチモーダル画像を生成することができる。
論文 参考訳(メタデータ) (2023-10-29T09:32:33Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - SieveNet: A Unified Framework for Robust Image-Based Virtual Try-On [14.198545992098309]
SieveNetは、堅牢なイメージベースの仮想トライオンのためのフレームワークである。
細粒度精度をモデル化する多段粗いワープネットワークを提案する。
また,テクスチャ伝達ネットワークを改善するために,試着型布条件セグメンテーションマスクを導入する。
論文 参考訳(メタデータ) (2020-01-17T12:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。