論文の概要: MV-VTON: Multi-View Virtual Try-On with Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.17364v3
- Date: Wed, 4 Sep 2024 02:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 03:12:50.101954
- Title: MV-VTON: Multi-View Virtual Try-On with Diffusion Models
- Title(参考訳): MV-VTON:拡散モデルを用いたマルチビューバーチャルトライオン
- Authors: Haoyu Wang, Zhilu Zhang, Donglin Di, Shiliang Zhang, Wangmeng Zuo,
- Abstract要約: 画像ベースの仮想試着の目的は、与えられた衣服を自然に身に着けている対象者の画像を生成することである。
既存の方法は、前頭服を用いた正面試着のみに焦点をあてる方法である。
本稿では,服の複数ビューからドレッシング結果を再構築することを目的としたMulti-View Virtual Try-ON(MV-VTON)を紹介する。
- 参考スコア(独自算出の注目度): 91.71150387151042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of image-based virtual try-on is to generate an image of the target person naturally wearing the given clothing. However, existing methods solely focus on the frontal try-on using the frontal clothing. When the views of the clothing and person are significantly inconsistent, particularly when the person's view is non-frontal, the results are unsatisfactory. To address this challenge, we introduce Multi-View Virtual Try-ON (MV-VTON), which aims to reconstruct the dressing results from multiple views using the given clothes. Given that single-view clothes provide insufficient information for MV-VTON, we instead employ two images, i.e., the frontal and back views of the clothing, to encompass the complete view as much as possible. Moreover, we adopt diffusion models that have demonstrated superior abilities to perform our MV-VTON. In particular, we propose a view-adaptive selection method where hard-selection and soft-selection are applied to the global and local clothing feature extraction, respectively. This ensures that the clothing features are roughly fit to the person's view. Subsequently, we suggest joint attention blocks to align and fuse clothing features with person features. Additionally, we collect a MV-VTON dataset MVG, in which each person has multiple photos with diverse views and poses. Experiments show that the proposed method not only achieves state-of-the-art results on MV-VTON task using our MVG dataset, but also has superiority on frontal-view virtual try-on task using VITON-HD and DressCode datasets. Codes and datasets are publicly released at https://github.com/hywang2002/MV-VTON .
- Abstract(参考訳): 画像ベースの仮想試着の目的は、与えられた衣服を自然に身に着けている対象者の画像を生成することである。
しかし、既存の手法は、正面服を用いた正面試着のみにのみ焦点をあてている。
衣服や人の視線が著しく矛盾している場合、特に人の視線が正面ではない場合、その結果は満足できない。
この課題に対処するために,指定した服を用いて複数のビューからドレッシング結果を再構築することを目的としたMulti-View Virtual Try-ON(MV-VTON)を導入する。
単視服はMV-VTONに不十分な情報を提供するので、その代わりに2つの画像、すなわち、衣服の正面と後方の視界を用いて、可能な限り完全な視界を包含する。
さらに,MV-VTONの実行能力に優れた拡散モデルを適用した。
特に,グローバルな衣服の特徴抽出にハードセレクションとソフトセレクションをそれぞれ適用したビューアダプティブ選択法を提案する。
これにより、衣服の特徴が人の視界にほぼ一致することが保証される。
続いて,衣服の特徴と人的特徴を一致させて融合させる共同注意ブロックを提案する。
さらに、MV-VTONデータセットMVGを収集し、各人物がさまざまなビューとポーズを持つ複数の写真を取得する。
実験により,提案手法はMVGデータセットを用いたMV-VTONタスクの最先端結果だけでなく,VITON-HDおよびDressCodeデータセットを用いたフロントビュー仮想試行タスクにも優れていることがわかった。
コードとデータセットはhttps://github.com/hywang2002/MV-VTON で公開されている。
関連論文リスト
- WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - M&M VTO: Multi-Garment Virtual Try-On and Editing [31.45715245587691]
M&M VTO(M&M VTO)は、複数の衣料品画像、衣服レイアウトのためのテキスト記述、人物のイメージを入力として利用する、ミックス・アンド・マッチ方式の仮想試行法である。
例としては、シャツのイメージ、ズボンのペアの画像、"ローリングスリーブ、シャツの入れ墨"、人物のイメージなどがある。
アウトプットは、その衣服(望ましいレイアウト)が特定の人にどのように見えるかを視覚化するものだ。
論文 参考訳(メタデータ) (2024-06-06T22:46:37Z) - Improving Diffusion Models for Virtual Try-on [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - WG-VITON: Wearing-Guide Virtual Try-On for Top and Bottom Clothes [1.9290392443571387]
本稿では,WG-VITON(Wearing-Guide VITON,WG-VITON)を導入する。
実験の結果、WG-VITONは、与えられた上着と下着を装着したモデルのイメージを効果的に生成し、上着と下着に部分的にタッキングするといった複雑な着用スタイルを生成することがわかった。
論文 参考訳(メタデータ) (2022-05-10T09:09:02Z) - Dress Code: High-Resolution Multi-Category Virtual Try-On [30.166151802234555]
Dress Codeは、イメージベースの仮想試行用データセットよりも3倍大きい。
我々は,画像レベルやパッチレベルではなく,ピクセルレベルでの予測を行うセマンティック・アウェア・ディスクリミネータを活用する。
論文 参考訳(メタデータ) (2022-04-18T19:31:49Z) - Arbitrary Virtual Try-On Network: Characteristics Preservation and
Trade-off between Body and Clothing [85.74977256940855]
本報告では,オールタイプの衣料品を対象としたArbitrary Virtual Try-On Network (AVTON)を提案する。
AVTONは、ターゲット服と参照者の特性を保存・交換することで、現実的な試行画像を合成することができる。
提案手法は,最先端の仮想試行法と比較して性能が向上する。
論文 参考訳(メタデータ) (2021-11-24T08:59:56Z) - MV-TON: Memory-based Video Virtual Try-on network [49.496817042974456]
メモリベースの仮想トライオンネットワーク(MV-TON)を提案する。
MV-TONは、衣服テンプレートを使わずに、望ましい服を対象者にシームレスに転送し、高精細なリアルな映像を生成する。
実験により,ビデオ仮想試行課題における本手法の有効性と,既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-17T08:35:23Z) - SPG-VTON: Semantic Prediction Guidance for Multi-pose Virtual Try-on [27.870740623131816]
イメージベースの仮想試着は、多様な人間のポーズの下で、ターゲットのインショップ服を基準人物に適合させることが難しい。
エンドツーエンドのセマンティック予測誘導多目的仮想トライオンネットワーク(SPG-VTON)を提案する。
提案手法を,最大規模の多目的データセット(MPV)とDeepFashionデータセットで評価する。
論文 参考訳(メタデータ) (2021-08-03T15:40:50Z) - Shape Controllable Virtual Try-on for Underwear Models [0.0]
そこで我々は,下着モデル用の衣服を着る形状制御可能な仮想トライオンネットワーク(SC-VTON)を提案する。
SC-VTONは、モデルと衣服の情報を統合し、歪んだ衣服画像を生成する。
本手法は, 詳細なテクスチャで高分解能な結果が得られる。
論文 参考訳(メタデータ) (2021-07-28T04:01:01Z) - Apparel-invariant Feature Learning for Apparel-changed Person
Re-identification [70.16040194572406]
ほとんどのパブリックなReIDデータセットは、人の外観がほとんど変化しない短時間のウィンドウで収集される。
ショッピングモールのような現実世界の応用では、同じ人の服装が変化し、異なる人が同様の服を着ることがある。
着替えなどの場合や、類似の服を着ている場合などにおいて、アパレル不変の人物表現を学ぶことは極めて重要である。
論文 参考訳(メタデータ) (2020-08-14T03:49:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。