論文の概要: C-VTON: Context-Driven Image-Based Virtual Try-On Network
- arxiv url: http://arxiv.org/abs/2212.04437v1
- Date: Thu, 8 Dec 2022 17:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 15:50:31.509533
- Title: C-VTON: Context-Driven Image-Based Virtual Try-On Network
- Title(参考訳): C-VTON: コンテキスト駆動型イメージベース仮想トライオンネットワーク
- Authors: Benjamin Fele and Ajda Lampe and Peter Peer and Vitomir \v{S}truc
- Abstract要約: 本稿では,選択した衣服を対象者に確実に転送するコンテキスト駆動型仮想トライオンネットワーク(C-VTON)を提案する。
C-VTONパイプラインのコアには、(i)入力画像中の人物のポーズに目的の衣服を効率よく整列する幾何マッチング手順と、(ii)最終試行結果に様々な種類の文脈情報を利用する強力な画像生成装置とがある。
- 参考スコア(独自算出の注目度): 1.0832844764942349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-based virtual try-on techniques have shown great promise for enhancing
the user-experience and improving customer satisfaction on fashion-oriented
e-commerce platforms. However, existing techniques are currently still limited
in the quality of the try-on results they are able to produce from input images
of diverse characteristics. In this work, we propose a Context-Driven Virtual
Try-On Network (C-VTON) that addresses these limitations and convincingly
transfers selected clothing items to the target subjects even under challenging
pose configurations and in the presence of self-occlusions. At the core of the
C-VTON pipeline are: (i) a geometric matching procedure that efficiently aligns
the target clothing with the pose of the person in the input images, and (ii) a
powerful image generator that utilizes various types of contextual information
when synthesizing the final try-on result. C-VTON is evaluated in rigorous
experiments on the VITON and MPV datasets and in comparison to state-of-the-art
techniques from the literature. Experimental results show that the proposed
approach is able to produce photo-realistic and visually convincing results and
significantly improves on the existing state-of-the-art.
- Abstract(参考訳): イメージベースの仮想試行技術は,ユーザエクスペリエンスの向上と,ファッション指向のeコマースプラットフォームにおける顧客満足度向上に大きく貢献している。
しかし、既存の技術は、様々な特性の入力画像から得られる試行結果の品質に依然として制限されている。
本研究では,これらの制約に対処し,ポーズ構成や自己排他的存在下でも選択した衣服を対象者に説得的に転送する,コンテキスト駆動仮想トライオンネットワーク(c-vton)を提案する。
C-VTONパイプラインのコアは以下のとおりである。
(i)対象の衣服を入力画像中の人物のポーズと効率的に一致させる幾何学的マッチング手順
(ii)最終試行結果の合成に際し、様々な種類の文脈情報を利用する強力な画像生成装置。
C-VTONは、VITONとMPVデータセットの厳密な実験で評価され、文献の最先端技術と比較される。
実験の結果,提案手法は,実写的かつ視覚的に説得力のある結果を生み出すことができ,既存の技術で大幅に改善できることがわかった。
関連論文リスト
- DiCTI: Diffusion-based Clothing Designer via Text-guided Input [5.275658744475251]
DiCTI (Diffusion-based Clothing Designer via Text-guided Input)は、デザイナーがテキスト入力のみを使用してファッション関連のアイデアを素早く視覚化できるようにする。
テキスト入力に条件付けされた強力な拡散ベースの塗装モデルを活用することで、DICTIは、さまざまな衣料デザインで、説得力のある高品質な画像を合成することができる。
論文 参考訳(メタデータ) (2024-07-04T12:48:36Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Time-Efficient and Identity-Consistent Virtual Try-On Using A Variant of Altered Diffusion Models [4.038493506169702]
本研究は, 複雑なテクスチャの詳細と, 対象者と衣服の特徴を, 様々なシナリオで保存することの課題を強調する。
様々な既存アプローチが検討され、制限と未解決の側面を強調している。
次に,仮想試行中にテクスチャのテクスチャ保存とユーザアイデンティティ保持に対処する,新しい拡散型ソリューションを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:15:29Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - PT-VTON: an Image-Based Virtual Try-On Network with Progressive Pose
Attention Transfer [11.96427084717743]
PT-VTONは、任意のポーズで仮想試着を可能にする布の転送のためのポーズ転送ベースのフレームワークである。
PT-VTONは、既存のシステムの最小限の変更でファッション産業に適用することができる。
論文 参考訳(メタデータ) (2021-11-23T21:51:08Z) - Data Augmentation using Random Image Cropping for High-resolution
Virtual Try-On (VITON-CROP) [18.347532903864597]
VITON-CROPは、既存の最先端仮想試行モデルと比較して、ランダムな作物増収と統合した場合、画像をより堅牢に合成する。
実験では,VITON-CROPがVITON-HDより質的,定量的に優れていることを示した。
論文 参考訳(メタデータ) (2021-11-16T07:40:16Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z) - Cloth Interactive Transformer for Virtual Try-On [106.21605249649957]
本稿では,仮想試行作業のための2段階のインタラクティブトランス (CIT) 手法を提案する。
第1段階では, CITマッチングブロックを設計し, 着物非依存者情報と着物内布情報との長距離相関関係を正確に把握することを目的とした。
第2段階では,人物表現のグローバルな相互相互依存関係を確立するためのCIT推論ブロック,整形衣料品,およびそれに対応する整形布マスクを作成した。
論文 参考訳(メタデータ) (2021-04-12T14:45:32Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。