論文の概要: Neural Clothing Tryer: Customized Virtual Try-On via Semantic Enhancement and Controlling Diffusion Model
- arxiv url: http://arxiv.org/abs/2601.22838v1
- Date: Fri, 30 Jan 2026 11:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.401121
- Title: Neural Clothing Tryer: Customized Virtual Try-On via Semantic Enhancement and Controlling Diffusion Model
- Title(参考訳): Neural Clothing Tryer: セマンティックエンハンスメントと拡散モデル制御によるカスタマイズされた仮想トライオン
- Authors: Zhijing Yang, Weiwei Zhang, Mingliang Yang, Siyuan Peng, Yukai Shi, Junpeng Tan, Tianshui Chen, Liruo Zhong,
- Abstract要約: 本研究の目的は、Cu-VTON(Customized Virtual Try-ON)タスクに対処することである。
特定の衣服を、外観、姿勢、その他の属性でカスタマイズできるモデルに重ね合わせることができる。
- 参考スコア(独自算出の注目度): 35.49427419001177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work aims to address a novel Customized Virtual Try-ON (Cu-VTON) task, enabling the superimposition of a specified garment onto a model that can be customized in terms of appearance, posture, and additional attributes. Compared with traditional VTON task, it enables users to tailor digital avatars to their individual preferences, thereby enhancing the virtual fitting experience with greater flexibility and engagement. To address this task, we introduce a Neural Clothing Tryer (NCT) framework, which exploits the advanced diffusion models equipped with semantic enhancement and controlling modules to better preserve semantic characterization and textural details of the garment and meanwhile facilitating the flexible editing of the model's postures and appearances. Specifically, NCT introduces a semantic-enhanced module to take semantic descriptions of garments and utilizes a visual-language encoder to learn aligned features across modalities. The aligned features are served as condition input to the diffusion model to enhance the preservation of the garment's semantics. Then, a semantic controlling module is designed to take the garment image, tailored posture image, and semantic description as input to maintain garment details while simultaneously editing model postures, expressions, and various attributes. Extensive experiments on the open available benchmark demonstrate the superior performance of the proposed NCT framework.
- Abstract(参考訳): 本研究の目的は,Cu-VTON(Customized Virtual Try-ON, カスタマイズ仮想トライオン)タスクに対処することであり, 外観, 姿勢, 付加属性の面でカスタマイズ可能なモデルに, 特定の衣服を重ね合わせることができる。
従来のVTONタスクと比較して、ユーザーは個々の好みに合わせてデジタルアバターをカスタマイズできるため、柔軟性とエンゲージメントが向上する。
この課題に対処するために、意味的拡張と制御モジュールを備えた高度な拡散モデルを利用して、衣服のセマンティックな特徴やテクスチュラルな詳細をよりよく保存し、一方でモデルの姿勢や外観の柔軟な編集を容易にするニューラル・クリーティング・トライアー(NCT)フレームワークを導入する。
特に,NCTでは,衣服のセマンティックな記述を行うためのセマンティック・エンハンスド・モジュールを導入し,視覚言語エンコーダを用いてモダリティ間の整合性を学習している。
整列された特徴は、服のセマンティクスの保存を強化するために拡散モデルへの条件入力として提供される。
そして、服飾画像、仕立て姿勢画像、意味記述を入力として、モデル姿勢、表現、および様々な属性を同時に編集しながら、衣服の細部を維持するために意味制御モジュールを設計する。
オープンなベンチマークに関する大規模な実験は、提案したNCTフレームワークの優れた性能を示している。
関連論文リスト
- MuGa-VTON: Multi-Garment Virtual Try-On via Diffusion Transformers with Prompt Customization [19.780800887427937]
我々は,上着と下着を共用した多目的拡散フレームワーク MuGa-VTON を紹介する。
このアーキテクチャはプロンプトベースのカスタマイズをサポートし、最小限のユーザ入力できめ細かい衣服の修正を可能にする。
論文 参考訳(メタデータ) (2025-08-11T21:45:07Z) - DH-VTON: Deep Text-Driven Virtual Try-On via Hybrid Attention Learning [6.501730122478447]
DH-VTONは、特別なハイブリッドアテンション学習戦略と深層着衣意味保存モジュールを備えた、深層テキスト駆動型仮想試行モデルである。
衣服の深い意味を抽出するために,我々はまずInternViT-6Bを細粒度特徴学習機として導入する。
カスタマイズドレッシング能力を高めるため,Garment-Feature ControlNet Plus (略してGFC+)モジュールを導入する。
論文 参考訳(メタデータ) (2024-10-16T12:27:10Z) - Improving Virtual Try-On with Garment-focused Diffusion Models [91.95830983115474]
拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。
私たちは新しい拡散モデル、すなわちGarDiffを作り、衣服中心の拡散プロセスを引き起こします。
VITON-HDおよびDressCodeデータセットの実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
論文 参考訳(メタデータ) (2024-09-12T17:55:11Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - StableVITON: Learning Semantic Correspondence with Latent Diffusion
Model for Virtual Try-On [35.227896906556026]
衣服画像と人物画像が与えられた場合、画像ベースの仮想試行は、衣服画像の特徴を自然に正確に反映した、カスタマイズされた画像を生成することを目的としている。
本研究では,事前学習した拡散モデルの適用性を拡張し,仮想試行作業に独立して利用できるようにすることを目的とする。
提案するゼロ・クロスアテンションブロックは, 意味的対応を学習することで衣服の細部を保存できるだけでなく, ワープ過程における事前学習モデル固有の知識を利用して高忠実度画像を生成する。
論文 参考訳(メタデータ) (2023-12-04T08:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。