論文の概要: CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.15886v1
- Date: Sun, 21 Jul 2024 11:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 21:44:53.206519
- Title: CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models
- Title(参考訳): CatVTON: 拡散モデルで仮想試行錯誤がすべて
- Authors: Zheng Chong, Xiao Dong, Haoxiang Li, Shiyue Zhang, Wenqing Zhang, Xujie Zhang, Hanqing Zhao, Xiaodan Liang,
- Abstract要約: CatVTONはシンプルで効率的な仮想試行拡散モデルである。
元の拡散モジュールのみが、追加のネットワークモジュールなしで使用される。
CatVTONは、ベースライン法よりも必要条件や訓練可能なパラメータが少なく、質的かつ定量的な結果が得られる。
- 参考スコア(独自算出の注目度): 78.27600454432566
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Virtual try-on methods based on diffusion models achieve realistic try-on effects but often replicate the backbone network as a ReferenceNet or use additional image encoders to process condition inputs, leading to high training and inference costs. In this work, we rethink the necessity of ReferenceNet and image encoders and innovate the interaction between garment and person by proposing CatVTON, a simple and efficient virtual try-on diffusion model. CatVTON facilitates the seamless transfer of in-shop or worn garments of any category to target persons by simply concatenating them in spatial dimensions as inputs. The efficiency of our model is demonstrated in three aspects: (1) Lightweight network: Only the original diffusion modules are used, without additional network modules. The text encoder and cross-attentions for text injection in the backbone are removed, reducing the parameters by 167.02M. (2) Parameter-efficient training: We identified the try-on relevant modules through experiments and achieved high-quality try-on effects by training only 49.57M parameters, approximately 5.51 percent of the backbone network's parameters. (3) Simplified inference: CatVTON eliminates all unnecessary conditions and preprocessing steps, including pose estimation, human parsing, and text input, requiring only a garment reference, target person image, and mask for the virtual try-on process. Extensive experiments demonstrate that CatVTON achieves superior qualitative and quantitative results with fewer prerequisites and trainable parameters than baseline methods. Furthermore, CatVTON shows good generalization in in-the-wild scenarios despite using open-source datasets with only 73K samples.
- Abstract(参考訳): 拡散モデルに基づく仮想試行法は、現実的な試行効果を実現するが、しばしばReferenceNetとしてバックボーンネットワークを複製したり、条件入力を処理するために追加の画像エンコーダを使用したりすることで、高いトレーニングと推論コストをもたらす。
本研究では,リファレンスネットと画像エンコーダの必要性を再考し,シンプルで効率的な仮想トライオン拡散モデルであるCatVTONを提案する。
CatVTONは、任意のカテゴリーの着物や着物のシームレスな移動を容易にする。
1)軽量ネットワーク:元の拡散モジュールのみを使用し、追加のネットワークモジュールは使用しない。
バックボーン内のテキストインジェクション用のテキストエンコーダとクロスアテンションを除去し、パラメータを167.02M削減する。
2) パラメータ効率のトレーニング: 実験により試行関連モジュールを特定し, バックボーンネットワークのパラメータの約5.51パーセントである49.57Mパラメータのみをトレーニングすることで, 高品質な試行効果を得た。
(3) 簡易推論: CatVTONは、ポーズ推定、人間のパース、テキスト入力などの不要な条件と事前処理のステップをすべて排除し、仮想トライオンプロセスには衣服参照、対象人物画像、マスクのみを必要とする。
大規模な実験により、CatVTONはベースライン法よりも条件条件や訓練可能なパラメータが少なく、質的かつ定量的な結果が得られることが示された。
さらに、CatVTONは73Kのサンプルしか持たないオープンソースデータセットを使用していないにも関わらず、Wildのシナリオにおいて優れた一般化を示している。
関連論文リスト
- Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - NViST: In the Wild New View Synthesis from a Single Image with Transformers [8.361847255300846]
単一画像からの効率的なノベルビュー合成のためのトランスフォーマーベースモデルであるNViSTを提案する。
NViSTは、カジュアルにキャプチャされた現実世界のビデオの大規模なデータセットであるMVImgNetでトレーニングされている。
MVImgNetからの未確認オブジェクトやカテゴリ,さらにはカジュアル電話のキャプチャへの一般化結果を示す。
論文 参考訳(メタデータ) (2023-12-13T23:41:17Z) - CAT-DM: Controllable Accelerated Virtual Try-on with Diffusion Model [38.08115084929579]
画像ベースの仮想試行において,GAN(Generative Adversarial Networks)が研究分野を支配している。
拡散モデル(CAT-DM)を用いた制御可能な仮想トライオンを提案する。
論文 参考訳(メタデータ) (2023-11-30T09:56:17Z) - UniAdapter: Unified Parameter-Efficient Transfer Learning for
Cross-modal Modeling [49.134517040512414]
本論文では,UniAdapterを提案する。UniAdapterは,視覚言語モデルに対するパラメータ効率のよいクロスモーダル適応のための,ユニモーダルおよびマルチモーダルアダプタを統一する。
実験によると、UniAdapterは最先端技術を上回るだけでなく、完全な微調整戦略に勝っている。
論文 参考訳(メタデータ) (2023-02-13T18:59:10Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Online Model Compression for Federated Learning with Large Models [8.48327410170884]
Online Model Compression (OMC) は、モデルパラメータを圧縮形式で格納し、必要に応じて圧縮するフレームワークである。
OMCは、モデルパラメータのメモリ使用量と通信コストを最大59%削減し、完全精度のトレーニングと比較すると、同等の精度とトレーニング速度が得られる。
論文 参考訳(メタデータ) (2022-05-06T22:43:03Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。